FR3105499A1 - Method and device for visual animation of a voice control interface of a virtual personal assistant on board a motor vehicle, and a motor vehicle incorporating it - Google Patents
Method and device for visual animation of a voice control interface of a virtual personal assistant on board a motor vehicle, and a motor vehicle incorporating it Download PDFInfo
- Publication number
- FR3105499A1 FR3105499A1 FR1914929A FR1914929A FR3105499A1 FR 3105499 A1 FR3105499 A1 FR 3105499A1 FR 1914929 A FR1914929 A FR 1914929A FR 1914929 A FR1914929 A FR 1914929A FR 3105499 A1 FR3105499 A1 FR 3105499A1
- Authority
- FR
- France
- Prior art keywords
- microphone
- user
- audio signal
- avatar
- voice
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F3/00—Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
- G06F3/16—Sound input; Sound output
- G06F3/167—Audio in a user interface, e.g. using voice commands for navigating, audio feedback
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Multimedia (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- General Health & Medical Sciences (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- User Interface Of Digital Computer (AREA)
Abstract
Il est divulgué un procédé et un dispositif d’animation visuelle d’un avatar, qui permet grâce à un nombre discret de représentations graphiques, d’indiquer l’absence d’ouverture du microphone (50) ainsi que d’indiquer que le microphone est ouvert mais qu’aucune parole n’est en cours d’enregistrement (52) ou que, au contraire, la parole d’un utilisateur est enregistrée et est en cours de reconnaissance vocale (55). L’avatar représente ces états par un diagramme plat, un diagramme à petites ondelettes ou un diagramme à grandes ondelettes, respectivement, avec une transition douce entre ces représentations graphiques qui permet de simuler l’animation d’un avatar en fonction du niveau sonore en entrée du microphone selon l’art antérieur. F igure pour l’abrégé : f ig ure 5A method and a device for the visual animation of an avatar are disclosed, which makes it possible, thanks to a discrete number of graphic representations, to indicate the absence of an opening of the microphone (50) as well as to indicate that the microphone is open but no speech is being recorded (52) or, on the contrary, a user's speech is recorded and is being voice recognized (55). The avatar represents these states by a flat diagram, a small wavelet diagram or a large wavelet diagram, respectively, with a smooth transition between these graphic representations which makes it possible to simulate the animation of an avatar according to the sound level in microphone input according to the prior art. F ig ure for abstract: f ig ure 5
Description
La présente invention se rapporte de manière générale à la commande vocale d’un assistant personnel virtuel embarqué dans un véhicule automobile, et plus particulièrement à un procédé et un dispositif d’animation visuelle d’un dispositif d’interface de commande vocale d’un assistant personnel virtuel embarqué dans un véhicule automobile, ainsi qu’à un véhicule automobile l’incorporant.The present invention relates generally to the voice control of a virtual personal assistant on board a motor vehicle, and more particularly to a method and a device for visual animation of a voice control interface device of a virtual personal assistant embedded in a motor vehicle, as well as to a motor vehicle incorporating it.
Etat de la techniqueState of the art
Les assistants personnels virtuels (APV) ou assistants personnels intelligents sont des dispositifs essentiellement logiciels qui permettent d’exécuter des tâches ou de fournir des services spécifiques à leurs utilisateurs. Ils utilisent pour cela des informations telles que le contexte de leur utilisation (le lieu, la date, etc.), un profil d’utilisateur (son identité, un historique de son usage antérieur, etc.) et des données d’entrée fournies par l’utilisateur (i.e., des commandes et/ou requêtes spécifiques). Ils permettent ainsi de fournir à chaque utilisateur une assistance pertinente et personnalisée pour l’utilisation d’un appareil, pour la réalisation de certaines tâches, pour obtenir de l’information utile, etc.Virtual personal assistants (VPAs) or intelligent personal assistants are primarily software-based devices that perform tasks or provide specific services to their users. For this, they use information such as the context of their use (the place, the date, etc.), a user profile (his identity, a history of his previous use, etc.) and input data provided by the user (i.e., specific commands and/or requests). They thus make it possible to provide each user with relevant and personalized assistance for the use of a device, for the performance of certain tasks, to obtain useful information, etc.
Ces APV sont typiquement intégrés à des équipements dits équipements intelligents («Smart device» en anglais) tels que les appareils nomades et communicants comme les smartphones ou les tablettes, ou d’autres appareils connectés, que ce soit pour un usage domestique (à la maison), dans un véhicule, ou en nomade, par exemple. Dans tous les cas, ils sont exécutés par une unité de traitement (i.e., un calculateur) de l’équipement intelligent dans lequel ils sont intégrés.These APVs are typically integrated into equipment known as smart equipment (“ Smart device ”) such as nomadic and communicating devices such as smartphones or tablets, or other connected devices, whether for domestic use (at the home), in a vehicle, or on the go, for example. In all cases, they are executed by a processing unit ( ie , a computer) of the intelligent equipment in which they are integrated.
Pour les applications dans lesquelles l’APV est utilisé à bord d’un véhicule, cette unité de traitement peut être embarquée, en tout ou en partie, c’est-à-dire qu’il peut s’agir d’un calculateur du véhicule automobile. Tout du moins, une partie des traitements peut être effectuée dans un tel calculateur. En variante, l’unité de traitement peut aussi être débarquée, c’est-à-dire qu’elle peut être comprise dans un appareil distinct du véhicule, comme un appareil nomade et communicant d’un utilisateur, du type de ceux envisagés dans le paragraphe ci-dessus, par exemple. Dans ce cas, l’appareil peut être adapté pour contrôler des fonctionnalités du véhicule afin par exemple, de permettre le réglage de paramètres de confort (la température à bord, le niveau sonore restitué par une installation multimédia embarquée, etc.) ou de piloter le fonctionnement de certains équipements du véhicule (par l’exemple l’ouverture des fenêtres électriques, l’allumage des phares, etc.).For applications in which the APV is used on board a vehicle, this processing unit can be on board, in whole or in part, that is to say it can be a computer of the motor vehicle. At the very least, part of the processing can be performed in such a computer. As a variant, the processing unit can also be dismounted, that is to say it can be included in a separate device from the vehicle, such as a nomadic and communicating device of a user, of the type of those envisaged in the paragraph above, for example. In this case, the device can be adapted to control functions of the vehicle in order, for example, to allow the adjustment of comfort parameters (the temperature on board, the sound level reproduced by an on-board multimedia installation, etc.) or to control the operation of certain vehicle equipment (for example the opening of electric windows, switching on of the headlights, etc.).
L’utilisateur peut contrôler un APV physiquement par l’intermédiaire d’un dispositif d’interface homme/machine (IHM) de l’équipement intelligent auquel l’APV est intégré. Par exemple, l’APV peut être activé par l’appui sur un bouton dédié d’un boîtier, sur une touche ou une combinaison de touches d’un clavier physique ou virtuel, ou sur un bouton virtuel sur un écran tactile, par exemple.The user can control an APV physically through a human-machine interface (HMI) device of the intelligent equipment in which the APV is integrated. For example, the APV can be activated by pressing a dedicated button on a box, a key or a combination of keys on a physical or virtual keyboard, or a virtual button on a touch screen, for example .
Cependant, pour rendre leur utilisation plus ergonomique, la plupart des APV récents peuvent aussi être contrôlés vocalement, c’est-à-dire par la voix de l’utilisateur. Par «contrôlé vocalement» on entend à la fois le fait d’être activé à partir d’un état de veille («Standby mode» en anglais) et le fait, en outre, d’être commandé par l’intermédiaire de commandes ou de requêtes exprimées oralement par l’utilisateur. Une fonction de reconnaissance vocale (ou ASR mis pour «Automatic Speech Recognition», en anglais, ou encore VRE mis pour «Voice Recognition Engine», en anglais) est alors couplée à l’APV. Elle s’exécute sur l’unité de traitement de l’équipement intelligent qui intègre l’APV, et permet de reconnaître des mots prononcés par un utilisateur. Une séquence de mots reconnus peut alors être traitée par l’APV, qui les analyse pour en déduire la commande ou la requête exprimée par l’utilisateur, et pour exécuter ensuite la tâche ou le service correspondant.However, to make their use more ergonomic, most recent APVs can also be controlled vocally, that is to say by the voice of the user. By "voice controlled" is meant both the fact of being activated from a standby state (" Standby mode " in English) and the fact, in addition, of being controlled by means of commands or requests expressed orally by the user. A voice recognition function (or ASR for “ Automatic Speech Recognition ”, in English, or even VRE for “ Voice Recognition Engine ”, in English) is then coupled to the APV. It runs on the processing unit of the intelligent equipment which integrates the APV, and makes it possible to recognize words spoken by a user. A sequence of recognized words can then be processed by the APV, which analyzes them to deduce the command or request expressed by the user, and then to execute the corresponding task or service.
Un tel contrôle vocal d’un APV est particulièrement utile à bord d’un véhicule automobile, où l’aspect «mains libres» est favorable à la sécurité. Le conducteur peut en effet activer une fonctionnalité ou un service sans utiliser ses mains qui demeurent donc libres pour la conduite, et sans devoir détourner le regard de la route en sorte que sa vigilance est peu affectée.Such voice control of an APV is particularly useful on board a motor vehicle, where the “hands-free” aspect is favorable to safety. The driver can in fact activate a function or a service without using his hands which therefore remain free for driving, and without having to look away from the road so that his vigilance is little affected.
Ainsi, un véhicule automobile peut embarquer un APV qui peut être exécuté par le processeur principal (ou mCPU, de l’anglais «main Central Processing Unit») d’un calculateur embarqué du véhicule (ou ECU, de l’anglais «Electronic Central Unit»). Il peut s’agir par exemple du calculateur qui gère l’info-divertissement à bord du véhicule (ou IVI, de l’anglais «In-Vehicle Infotainment»). Un tel calculateur offre une plateforme matérielle et logicielle, dont l’architecture est adaptée pour la gestion des aspects média (radio, musique, vidéo, etc.) et des aspects communication (téléphonie, connexion à l’Internet, Bluetooth, etc.) dans le véhicule.Thus, a motor vehicle can embed an APV which can be executed by the main processor (or mCPU, standing for " main Central Processing Unit ") of an on-board computer of the vehicle (or ECU, standing for " Electronic Central Unit ”). It may be for example the computer which manages the infotainment on board the vehicle (or IVI, standing for “ In-Vehicle Infotainment ”). Such a computer offers a hardware and software platform, the architecture of which is suitable for managing media aspects (radio, music, video, etc.) and communication aspects (telephony, Internet connection, Bluetooth, etc.) in the vehicle.
L’APV peut être contrôlé par l’intermédiaire d’un dispositif d’interface homme/machine (IHM) du véhicule, comprenant des boutons du tableau de bord, et/ou un clavier virtuel d’un écran tactile de l’ordinateur de bord, par exemple. En variante ou en complément, l’APV peut aussi être contrôlé vocalement, c’est-à-dire par la voix d’un utilisateur captée par un ou plusieurs microphones disposés dans l’habitacle du véhicule. A cet effet, une fonction de reconnaissance vocale peut être exécutée en permanence par le processeur principal du calculateur, dès lors qu’un microphone est activé pour permettre de capter la voix d’un utilisateur présent à bord du véhicule. Plus particulièrement, un moteur de reconnaissance vocale (ou moteur d’ASR) est un module de nature logicielle qui peut être exécuté par le processeur principal du calculateur.The APV can be controlled via a vehicle human-machine interface (HMI) device, including buttons on the dashboard, and/or a virtual keyboard of a touch screen of the computer. edge, for example. As a variant or in addition, the APV can also be controlled vocally, that is to say by the voice of a user picked up by one or more microphones arranged in the passenger compartment of the vehicle. To this end, a voice recognition function can be permanently executed by the main processor of the computer, as soon as a microphone is activated to enable the voice of a user present on board the vehicle to be picked up. More specifically, a voice recognition engine (or ASR engine) is a software-based module that can be executed by the main processor of the computer.
Afin de permettre l’activation de l’APV en réponse à une commande vocale prononcée par un utilisateur, le moteur d’ASR peut mettre en œuvre une fonction de détection d’un mot-clé d’activation, aussi appelé mot de réveil (ou Wuw, mis pour «Wake-up word» en anglais). Cette fonction de détection du mot-clé d’activation est adaptée pour activer l’APV dès qu’elle reconnaît un ou plusieurs mots-clés d’activation prédéfinis. Dans le domaine des APV domestiques du marché ou dans le domaine des smartphones, on connaît par exemple les mots-clés ou séquences de mots-clés suivants: «OkGoogle», «Siri» ou «Alexa» pour les APV proposés par Google Assistant®, Apple® et Amazon®, respectivement. Dès qu’un tel mot-clé d’activation est reconnu, l’APV concerné peut être activé et la séquence de mots à laquelle le mot-clé appartient peut alors être traitée par le moteur d’ASR pour en déduire, le cas échéant, une commande ou une requête correspondante de l’utilisateur. Cette commande ou cette requête est ensuite traitée par l’APV.In order to allow the activation of the APV in response to a voice command pronounced by a user, the ASR engine can implement a function for detecting an activation keyword, also called a wake-up word ( or Wuw, put for " Wake-up word " in English). This activation keyword detection function is suitable for activating the APV as soon as it recognizes one or more predefined activation keywords. In the field of domestic APVs on the market or in the field of smartphones, the following keywords or sequences of keywords are known, for example: “OkGoogle”, “Siri” or “Alexa” for the APVs offered by Google Assistant® , Apple® and Amazon®, respectively. As soon as such an activation keyword is recognized, the APV concerned can be activated and the sequence of words to which the keyword belongs can then be processed by the ASR engine to deduce, if necessary , a corresponding user command or request. This command or request is then processed by the APV.
Un moteur de détection de mot-clé d’activation (ou moteur de Wuw) est spécialement adapté pour permettre, à partir d’un signal audio capté par un ou plusieurs microphones, d’identifier la prononciation d’un mot-clé d’activation par l’un quelconque des utilisateurs qui sont à bord du véhicule. La détection du mot-clé d’activation déclenche alors l’enregistrement du signal audio capté par le microphone, et son traitement par le moteur d’ASR. On parle, dans le jargon de l’homme du métier, d’ouverture du micro pour désigner le début de ces opérations, bien que l’homme du métier apprécie que le microphone est, préalablement, déjà mis en service pour permettre la détection du mot-clé d’activation par le moteur de Wuw.An activation keyword detection engine (or Wuw engine) is specially adapted to allow, from an audio signal picked up by one or more microphones, to identify the pronunciation of a keyword of activation by any of the users who are on board the vehicle. The detection of the activation keyword then triggers the recording of the audio signal picked up by the microphone, and its processing by the ASR engine. One speaks, in the jargon of the person skilled in the art, of opening the microphone to designate the start of these operations, although the person skilled in the art appreciates that the microphone is, beforehand, already put into service to allow the detection of the Wuw engine activation keyword.
Afin d’améliorer l’expérience de l’utilisateur, il est connu d’afficher une incarnation visuelle, ou avatar, donnant une représentation graphique de l’activité du moteur de reconnaissance vocale. L’affichage de cet avatar, par exemple sur l’écran de l’unité d’info-divertissement du véhicule, peut être déclenché par la détection du mot-clé d’activation par le moteur de Wuw de l’APV.In order to improve the user experience, it is known to display a visual embodiment, or avatar, giving a graphical representation of the activity of the voice recognition engine. The display of this avatar, for example on the screen of the vehicle's infotainment unit, can be triggered by the detection of the activation keyword by the APV's Wuw engine.
Grâce à cet avatar, l’utilisateur peut vérifier que l’APV a été activé avec succès par sa prononciation du mot-clé d’activation, et que la ou les commandes qu’il s’apprête à formuler à la suite vont être, puis sont, prises en compte par le moteur d’ASR. A cette fin, l’avatar peut être animé, c’est-à-dire que la représentation graphique qui est donnée peut changer dynamiquement en fonction de l’enregistrement de la voix de l’utilisateur par le microphone.Thanks to this avatar, the user can verify that the APV has been successfully activated by pronouncing the activation keyword, and that the command(s) he is about to issue next will be, then are taken into account by the ASR engine. To this end, the avatar can be animated, i.e. the graphical representation that is given can change dynamically depending on the recording of the user's voice by the microphone.
Le document US20140358545 décrit ainsi un système de reconnaissance vocale appliqué sur smartphone, dans lequel le résultat du traitement vocal est affiché sur plusieurs onglets. L’ASR est mis en œuvre sur un serveur externe. La figure 1B montre que, lors de l’enregistrement de la voix de l’utilisateur, des graphes à barres sont représentés.The document US20140358545 thus describes a voice recognition system applied to a smartphone, in which the result of the voice processing is displayed on several tabs. ASR is implemented on an external server. Figure 1B shows that when recording the user's voice, bar graphs are depicted.
L'avatar des systèmes de reconnaissance vocale développés aujourd'hui se base principalement sur des modules de post-traitement («post-processing», en anglais), du niveau sonore en entrée du microphone. Ceci permet d'animer l'avatar en fonction du niveau sonore de la voix de l'utilisateur, et d'arrêter l'animation à la fin de la commande vocale entrée par l'utilisateur. Ces systèmes donnent satisfaction en termes d’expérience d’utilisateur, mais ils nécessitent obligatoirement un module supplémentaire de traitement du niveau sonore en entrée du microphone.The avatar of the voice recognition systems developed today are mainly based on post-processing modules (“ post-processing ”, in English), of the sound level at the microphone input. This makes it possible to animate the avatar according to the sound level of the user's voice, and to stop the animation at the end of the voice command entered by the user. These systems are satisfactory in terms of user experience, but they necessarily require an additional module for processing the sound level at the microphone input.
L’invention vise à pallier cet inconvénient de l’état de la technique.The invention aims to overcome this drawback of the state of the art.
Le document US2011/0083075 et le document US2011/0193726 décrivent un système appelé «Emotive Advisory System» ou EAS, qui prévoit l’affichage d’un avatar (en l’occurrence un personnage) qui est animé suivant l’identification de différentes situations. Dans le document US2011/0193726, l’avatar donne des informations de durée ou d’horaire. Dans le document US2011/0083075, la provenance d’une question formulée oralement par un utilisateur est identifiée par le système audio, et l’avatar se tourne/regarde dans la direction de la personne qui parle. Dit autrement, l’animation de l’avatar affiché pendant la reconnaissance vocale est fonction du contexte identifié.The document US2011/0083075 and the document US2011/0193726 describe a system called " Emotive Advisory System " or EAS, which provides for the display of an avatar (in this case a character) which is animated according to the identification of different situations . In document US2011/0193726, the avatar provides duration or time information. In the document US2011/0083075, the origin of a question formulated orally by a user is identified by the audio system, and the avatar turns/looks in the direction of the person who is speaking. In other words, the animation of the avatar displayed during voice recognition depends on the identified context.
L’invention propose un procédé d’animation visuelle d’un dispositif d’interface pour la commande vocale d’un assistant personnel virtuel embarqué dans un véhicule automobile et commandé par la voix d’un utilisateur, comprenant:
-l’ouverture d’un microphone pour la capture d’un signal audio dans le véhicule automobile en vue de l’application d’un traitement de reconnaissance vocale audit signal audio;
-le traitement en continu, par un moteur de reconnaissance vocale, du signal audio capturé par le microphone pour détecter, le cas échéant, de l’information de parole prononcée par l’utilisateur afin de commander l’assistant personnel virtuel, et la génération d’une information numérique binaire ayant une première valeur binaire si le microphone est ouvert mais qu’aucune information de parole n’est reconnue dans le signal audio capturé, et une seconde valeur binaire, différente de ladite première valeur binaire, si le microphone est ouvert et qu’une information de parole est reconnue dans le signal audio; et,
-l’affichage d’une incarnation visuelle, ou avatar, avec une première représentation graphique ou une seconde représentation graphique, respectivement, selon la valeur binaire de l’information numérique binaire.The invention proposes a method of visual animation of an interface device for the voice control of a virtual personal assistant on board a motor vehicle and controlled by the voice of a user, comprising:
-the opening of a microphone for capturing an audio signal in the motor vehicle with a view to applying voice recognition processing to said audio signal;
-the continuous processing, by a voice recognition engine, of the audio signal captured by the microphone to detect, if necessary, speech information uttered by the user in order to control the virtual personal assistant, and the generation binary digital information having a first binary value if the microphone is open but no speech information is recognized in the captured audio signal, and a second binary value, different from said first binary value, if the microphone is open and speech information is recognized in the audio signal; And,
-the display of a visual incarnation, or avatar, with a first graphic representation or a second graphic representation, respectively, according to the binary value of the binary digital information.
L’animation visuelle de l’avatar permet, grâce à un nombre discret de représentations graphiques, notamment d’indiquer dynamiquement que le microphone est ouvert mais qu’aucune parole n’est en cours d’enregistrement ou que, au contraire, la parole d’un utilisateur est enregistrée et est en cours de reconnaissance vocale. Cette information binaire permet de maintenir la fonction de l’animation d’un avatar selon l’art antérieur en dépit de l’absence de moyens complexes pour détecter le niveau sonore en entrée du microphone.The visual animation of the avatar makes it possible, thanks to a discrete number of graphic representations, in particular to dynamically indicate that the microphone is open but that no speech is being recorded or that, on the contrary, speech of a user is recorded and is being voice recognized. This binary information makes it possible to maintain the function of the animation of an avatar according to the prior art despite the absence of complex means for detecting the sound level at the microphone input.
Dans un mode de mise en œuvre, le procédé comprend l’affichage de l’avatar via un nombre discret de représentations graphiques comprenant un diagramme plat, un diagramme à petites ondelettes ou un diagramme à grandes ondelettes pour indiquer, respectivement, que le microphone n’est pas ouvert, que le microphone est ouvert mais qu’aucune information de parole n’est en cours d’enregistrement ou que, au contraire, le microphone est ouvert et que de l’information de parole est enregistrée et est en cours de reconnaissance vocale, avec une transition douce entre lesdites représentations graphiques. Ceci permet de simuler l’animation d’un avatar en fonction du niveau sonore en entrée du microphone selon l’art antérieur. L’expérience de l’utilisateur est ainsi maintenue, sans nécessiter de module de traitement du niveau sonore en entrée du microphone.In one embodiment, the method comprises displaying the avatar via a discrete number of graphical representations including a flat diagram, a small wavelet diagram or a large wavelet diagram to indicate, respectively, that the microphone n is not open, the microphone is open but no speech information is being recorded or, on the contrary, the microphone is open and speech information is recorded and is being speech recognition, with a smooth transition between said graphical representations. This makes it possible to simulate the animation of an avatar according to the sound level at the microphone input according to the prior art. The user experience is thus maintained, without requiring a sound level processing module at the microphone input.
Dans un mode de mise en œuvre, le microphone est ouvert pour la capture du signal audio dans le véhicule automobile en réponse à la détection, par un moteur de détection de mot-clé d’activation (moteur de Wuw), d’un mot-clé d’activation de l’assistant personnel virtuel prononcé par un utilisateur. En d’autres termes, c’est la détection du mot-clé d’activation, laquelle est déjà réalisée même sans la mise en œuvre de l’invention, qui déclenche l’animation de l’avatar. L’utilisateur est ainsi immédiatement informé que le mot-clé d’activation a été reconnu, sans nécessiter de moyens supplémentaires. Dans un exemple, l’avatar peut être affiché avec, pour commencer, une première représentation graphique différente du diagramme plat précité, par exemple des petites ondelettes. L’utilisateur sait alors que le microphone est ouvert, grâce à cet affichage, et qu’il peut prononcer une requête vocale en vue de commander l’APV.In one embodiment, the microphone is opened for audio signal capture in the motor vehicle in response to the detection, by an activation keyword detection engine (Wuw engine), of a word -key for activating the virtual personal assistant pronounced by a user. In other words, it is the detection of the activation keyword, which is already carried out even without the implementation of the invention, which triggers the animation of the avatar. The user is thus immediately informed that the activation keyword has been recognized, without requiring additional means. In one example, the avatar can be displayed with, to begin with, a first graphical representation different from the aforementioned flat diagram, for example small wavelets. The user then knows that the microphone is on, thanks to this display, and that he can make a voice request to control the APV.
Avantageusement, le moteur de reconnaissance vocale peut être exécuté dans un calculateur embarqué à bord du véhicule. S’il nécessitait un module supplémentaire de traitement du niveau sonore en entrée du microphone comme dans l’art antérieur alors que le calculateur IFI embarqué n’en comprend pas, il devrait nécessairement être exécuté dans le cloud ce qui donne une solution plus complexe et coûteuse.Advantageously, the voice recognition engine can be executed in a computer on board the vehicle. If it required an additional module for processing the sound level at the microphone input as in the prior art while the onboard IFI calculator does not include one, it would necessarily have to be executed in the cloud which gives a more complex solution and expensive.
Dans un mode de mise en oeuvre, l’information binaire qui conditionne quelle représentation graphique est affichée pour l’avatar est générée en fonction du retour ou non de transcriptions associées au signal audio par le moteur de reconnaissance vocale.In one mode of implementation, the binary information which conditions which graphic representation is displayed for the avatar is generated according to the return or not of transcriptions associated with the audio signal by the voice recognition engine.
Un deuxième aspect de l’invention se rapporte à un dispositif d’animation visuelle d’un dispositif d’interface pour la commande vocale d’un assistant personnel virtuel embarqué dans un véhicule automobile et commandé par la voix d’un utilisateur, comprenant:
-des moyens pour capturer un signal audio à l’aide d’un microphone dans le véhicule automobile en vue de l’application d’un traitement de reconnaissance vocale audit signal audio;
-un moteur de reconnaissance vocale configuré pour appliquer en continu un traitement de reconnaissance vocale au signal audio capturé par le microphone en vue de détecter, le cas échéant, de l’information de parole prononcée par l’utilisateur afin de commander l’assistant personnel virtuel, et pour générer une information numérique binaire ayant une première valeur binaire si le microphone est ouvert mais qu’aucune information de parole n’est reconnue dans le signal audio capturé, et une seconde valeur binaire, différente de ladite première valeur binaire, si le microphone est ouvert et qu’une information de parole est reconnue dans le signal audio; et,
-un afficheur adapté pour l’affichage d’une incarnation visuelle, ou avatar, avec une première représentation graphique ou une seconde représentation graphique, respectivement, selon la valeur binaire de l’information numérique binaire.A second aspect of the invention relates to a device for the visual animation of an interface device for the voice control of a virtual personal assistant on board a motor vehicle and controlled by the voice of a user, comprising:
-means for capturing an audio signal using a microphone in the motor vehicle with a view to applying a voice recognition processing to said audio signal;
-a voice recognition engine configured to continuously apply voice recognition processing to the audio signal captured by the microphone in order to detect, if necessary, speech information spoken by the user in order to control the personal assistant virtual, and to generate binary digital information having a first binary value if the microphone is open but no speech information is recognized in the captured audio signal, and a second binary value, different from said first binary value, if the microphone is open and speech information is recognized in the audio signal; And,
-a display suitable for displaying a visual incarnation, or avatar, with a first graphic representation or a second graphic representation, respectively, according to the binary value of the binary digital information.
Dans un mode de réalisation, l’afficheur est adapté pour afficher l’avatar via un nombre discret de représentations graphiques comprenant un diagramme plat, un diagramme à petites ondelettes ou un diagramme à grandes ondelettes pour indiquer, respectivement, que le microphone n’est pas ouvert, que le microphone est ouvert mais qu’aucune information de parole n’est en cours d’enregistrement ou que, au contraire, le microphone est ouvert et que de l’information de parole est enregistrée et est en cours de reconnaissance vocale, avec une transition douce entre lesdites représentations graphiques.In one embodiment, the display is adapted to display the avatar via a discrete number of graphical representations comprising a flat diagram, a small wavelet diagram or a large wavelet diagram to indicate, respectively, that the microphone is not not open, the microphone is open but no speech information is being recorded or, on the contrary, the microphone is open and speech information is recorded and is being voice recognized , with a smooth transition between said graphical representations.
Les moyens pour capturer le signal audio à l’aide du microphone peuvent être adaptés pour réagir à la détection, par un moteur de détection de mot-clé d’activation, d’un mot-clé d’activation de l’assistant personnel virtuel prononcé par un utilisateur.The means for capturing the audio signal using the microphone may be adapted to respond to the detection, by an activation keyword detection engine, of an activation keyword of the virtual personal assistant spoken by a user.
Dans un mode de réalisation, le moteur de reconnaissance vocale est exécuté dans un calculateur embarqué à bord du véhicule.In one embodiment, the voice recognition engine is executed in a computer on board the vehicle.
Dans un mode de réalisation, l’information binaire qui conditionne quelle représentation graphique est affichée pour l’avatar est générée en fonction du retour ou non de transcriptions associées au signal audio par le moteur de reconnaissance vocale.In one embodiment, the binary information that conditions which graphic representation is displayed for the avatar is generated depending on whether or not transcriptions associated with the audio signal are returned by the voice recognition engine.
Dans un troisième aspect, l’invention concerne également un produit programme d’ordinateur comprenant une séquence d’instructions qui, lorsque le programme d’ordinateur est chargé dans la mémoire d’un ordinateur et exécuté par un processeur dudit ordinateur, sont adaptées pour mettre en œuvre toutes les étapes d’un procédé selon le premier aspect.In a third aspect, the invention also relates to a computer program product comprising a sequence of instructions which, when the computer program is loaded into the memory of a computer and executed by a processor of said computer, are adapted to implement all the steps of a method according to the first aspect.
Un quatrième et dernier aspect de l’invention se rapporte à un véhicule automobile comprenant un calculateur embarqué, configuré pour mettre en œuvre le dispositif selon le deuxième aspect ci-dessus. Il peut s’agir, comme évoquésupra, du calculateur d’info-divertissement (ou IVI, de l’anglais «In-Vehicle Infotainment»), qui gère les aspects média et les aspects communication à bord du véhicule.A fourth and last aspect of the invention relates to a motor vehicle comprising an on-board computer, configured to implement the device according to the second aspect above. It may be, as mentioned above , the infotainment computer (or IVI, for “ In-Vehicle Infotainment ”), which manages the media aspects and the communication aspects on board the vehicle.
Brève description des figuresBrief description of figures
D’autres caractéristiques et avantages de l’invention apparaîtront encore à la lecture de la description qui va suivre. Celle-ci est purement illustrative et doit être lue en regard des dessins annexés sur lesquels:Other characteristics and advantages of the invention will become apparent on reading the description which follows. This is purely illustrative and should be read in conjunction with the attached drawings on which:
Dans la description de modes de réalisation qui va suivre et dans les Figures des dessins annexés, les mêmes éléments ou des éléments similaires portent les mêmes références numériques aux dessins.In the description of embodiments which follows and in the Figures of the appended drawings, the same or similar elements bear the same reference numerals in the drawings.
Lafigure 1illustre schématiquement le contexte d’un cas d’usage dans lequel on peut mettre en œuvre le procédé et le dispositif selon l’invention, pour la commande vocale d’un assistant personnel virtuel (APV) à l’aide d’un microphone agencé dans l’habitacle d’un véhicule automobile. L’homme du métier appréciera que le contexte considéré n’est pas exclusif d’autres cas d’usage dans lesquels l’invention peut aussi être mise en œuvre. FIG. 1 schematically illustrates the context of a use case in which the method and device according to the invention can be implemented, for voice control of a virtual personal assistant (VPA) using a microphone arranged in the passenger compartment of a motor vehicle. Those skilled in the art will appreciate that the context considered is not exclusive of other use cases in which the invention can also be implemented.
En référence à lafigure 1, le véhicule 101 intègre un APV embarqué 104. L’APV embarqué 104 est par exemple commandé par la voix (i.e., la parole) d’un utilisateur 102 du véhicule, via un microphone. En complément, l’APC peut aussi être commandé par d’autres moyens comme des boutons de commande ou un clavier formant une interface physique, ou encore un clavier virtuel affiché sur un écran tactile formant une interface tactile. Qui permettent aussi l’entrée de commandes et de requêtes par l’utilisateur.Referring to Figure 1 , the vehicle 101 incorporates an onboard APV 104. The onboard APV 104 is for example controlled by the voice ( ie , speech) of a user 102 of the vehicle, via a microphone. In addition, the APC can also be controlled by other means such as control buttons or a keyboard forming a physical interface, or even a virtual keyboard displayed on a touch screen forming a touch interface. Which also allow the entry of commands and queries by the user.
L’APV embarqué 104 fait partie d’un système embarqué qui comprend aussi des moyens audios pour la restitution à l’utilisateur d’une information sonore sous la forme d’un message vocal, c’est-à-dire un message audio imitant,i.e., synthétisant, la voix d’un opérateur. Dans un cas d’usage typique, en réponse à une requête vocale de l’utilisateur 102 du véhicule 101, le système émet via un ou plusieurs haut-parleurs un message vocal synthétisé contenant des informations utiles destinées à l’utilisateur 102. En outre, dans d’autres modes de réalisation, le système peut comprendre des moyens d’affichage pour la restitution d’une information visuelle qui peuvent se substituer à et/ou compléter l’émission de messages vocaux. Par exemple, le système peut intégrer un écran sur lequel sont affichées les informations utiles destinées à l’utilisateur du véhicule. Avantageusement, une telle restitution visuelle permet de communiquer une information intelligible pour l’utilisateur dans un environnement bruyant.The onboard APV 104 is part of an onboard system which also includes audio means for the restitution to the user of sound information in the form of a voice message, that is to say an audio message imitating , ie , synthesizing, the voice of an operator. In a typical case of use, in response to a voice request from the user 102 of the vehicle 101, the system transmits via one or more loudspeakers a synthesized voice message containing useful information intended for the user 102. , in other embodiments, the system may comprise display means for the restitution of visual information which may replace and/or supplement the transmission of voice messages. For example, the system can integrate a screen on which useful information intended for the user of the vehicle is displayed. Advantageously, such visual restitution makes it possible to communicate information that is intelligible to the user in a noisy environment.
Tous ces moyens d’entrée et de restitution forment l’interface homme/machine (IHM) du système.All these means of input and restitution form the human/machine interface (HMI) of the system.
L’utilisateur 102 représenté ici est le conducteur du véhicule 101. Toutefois, il peut aussi s’agir de l’un des passagers: soit un passager assis à l’avant à côté du conducteur, soit un passager assis à l’arrière en deuxième rang, ou bien en troisième rang pour les véhicules équipés de plus d’un rang de sièges arrière pour les passagers, comme les grands monospaces.The user 102 represented here is the driver of the vehicle 101. However, it can also be one of the passengers: either a passenger seated in the front next to the driver, or a passenger seated in the back second row, or third row for vehicles fitted with more than one row of rear seats for passengers, such as large minivans.
Dans le contexte d’usage considéré, l’utilisateur 102 prononce un mot ou une séquence de mots 103 qui sont reconnus par l’APV 104 et sont convertis en une (ou plusieurs) instruction(s) exécutable(s), et/ou une (ou plusieurs) requête(s) d’information à laquelle(auxquelles) l’APV apporte une réponse appropriée.In the context of use considered, the user 102 pronounces a word or a sequence of words 103 which are recognized by the APV 104 and are converted into one (or more) executable instruction(s), and/or one (or more) request(s) for information to which the APV provides an appropriate response.
La séquence de mots 103 prononcée commence par un mot-clé d’activation, qui est adapté pour réveiller l’APV embarqué 104. En effet, pour des raisons d’économie d’énergie, les moyens matériels et logiciels mettant en œuvre l’APV sont mis en sommeil (en «standby») pendant les phases de non-utilisation prolongée. Et ils sont réveillés lorsque le mot-clé d’activation est prononcé par un utilisateur dans l’habitacle du véhicule, et est identifié par un dispositif d’identification dans le signal audio capté en continu par le (ou les) microphone(s) qui est(sont) disposé(s) dans l’habitable. Le reste de la séquence de mots 103 est alors traité par l’APV afin d’identifier les instructions et/ou les requêtes qu’elle comprend.The sequence of words 103 pronounced begins with an activation keyword, which is suitable for waking up the on-board APV 104. Indeed, for reasons of energy saving, the hardware and software means implementing the APVs are placed on standby during periods of prolonged non-use. And they are awakened when the activation keyword is spoken by a user in the vehicle cabin, and is identified by an identification device in the audio signal continuously picked up by the microphone (s) which is (are) arranged in the cockpit. The rest of the sequence of words 103 is then processed by the APV in order to identify the instructions and/or the requests that it includes.
Ce traitement comprend classiquement deux parties principales. D’une part la transcription de la parole (opération appelée «Speech-to-Text» en anglais), qui consiste à convertir le signal audio capté par le microphone en une suite de mots formant un texte (i.e., une chaîne de caractères) dans une langue déterminée, et qui retourne des transcriptions partielles (« partial transcript s» en anglais) correspondant à des mots reconnus dans le signal audio. Et, d’autre part, l’interprétation de la requête exprimée vocalement par l’utilisateur et captée sous la forme de signal audio par le microphone (opération appelée «mining» en anglais), qui peut faire usage d’une intelligence artificielle pour retourner des résultats de reconnaissance (ou «recognition results» en anglais) avec un contenu sémantique qui est déterminé, par référence à des données précédemment acquises et/ou résultant d’un apprentissage profond («deep learning» en anglais).This treatment typically comprises two main parts. On the one hand, speech transcription (operation called “ Speech-to-Text ”), which consists of converting the audio signal picked up by the microphone into a series of words forming a text ( ie ., a string of characters ) in a given language, and which returns partial transcripts corresponding to words recognized in the audio signal . And, on the other hand, the interpretation of the request expressed vocally by the user and picked up in the form of an audio signal by the microphone (operation called " mining "), which can make use of an artificial intelligence to return recognition results with a semantic content which is determined, by reference to data previously acquired and/or resulting from deep learning .
La commande vocale d’un dispositif embarqué comme l’APV 104 présente l’avantage d’éviter de trop perturber le conducteur pendant la conduite.Voice control of an on-board device such as the APV 104 has the advantage of avoiding too much disturbance to the driver while driving.
Afin d’informer l’utilisateur que le microphone a été «ouvert», par exemple en réponse à la détection du mot-clé d’activation, c’est-à-dire que le signal audio qu’il capte est enregistré pour donner lieu à un traitement de reconnaissance vocale (qui va au-delà de la simple identification d’un mot-clé d’activation), il est connu d’afficher, via l’IHM du système, une incarnation visuelle, aussi appelée un avatar, de l’activité du système en relation avec l’enregistrement du signal audio en vue du traitement de reconnaissance vocale destiné à identifier les commandes ou requêtes d’information verbalisées oralement par l’utilisateur.In order to inform the user that the microphone has been "opened", for example in response to the detection of the activation keyword, i.e. the audio signal it picks up is recorded to give subject to voice recognition processing (which goes beyond the simple identification of an activation keyword), it is known to display, via the system's HMI, a visual incarnation, also called an avatar , the activity of the system in relation to the recording of the audio signal with a view to the voice recognition processing intended to identify the commands or requests for information verbalized orally by the user.
Cette fonction, telle qu’elle est connue et utilisée à ce jour, comprend une animation visuelle de l’avatar, qui consiste à créer des ondes proportionnelles à l’intensité de la voix captée par le microphone. Nativement, cette animation est «lisse», c’est-à-dire sans cassure (i.e., ligne brisée) dans la représentation de l’avatar.This function, as it is known and used to date, includes a visual animation of the avatar, which consists of creating waves proportional to the intensity of the voice picked up by the microphone. Natively, this animation is "smooth", i.e. without breaks (i.e., broken line) in the representation of the avatar.
Ceci nécessite toutefois de faire un post-traitement audio, à l’aide d’un module logiciel qui est généralement exécuté sur un serveur externe, par exemple dans le cloud, auquel le système peut se connecter via les moyens de connectivité existants du système (technologie LTE/4G ou 5G, par exemple).However, this requires doing audio post-processing, using a software module that is usually run on an external server, for example in the cloud, to which the system can connect via the system's existing connectivity means ( LTE/4G or 5G technology, for example).
L’invention permet d’assurer la fonction d’animation d’un avatar de la reconnaissance vocale, sans toutefois nécessiter un module supplémentaire, par rapport à ceux déjà présents pour assurer la fonction de reconnaissance vocale en elle-même.The invention makes it possible to perform the function of animating a voice recognition avatar, without however requiring an additional module, compared to those already present to perform the voice recognition function itself.
Selon les modes de réalisation de l’invention, l’animation visuelle d’un avatar est obtenue grâce à un nombre discret de représentations graphiques, qui permettent d’indiquer, respectivement, l’absence d’ouverture du microphone, le fait que le microphone est «ouvert» mais qu’aucune parole n’est en cours d’enregistrement (lors d’une phase de silence de l’utilisateur, aussi appelé un «blanc» en audio), ou au contraire le fait que la parole d’un utilisateur est enregistrée et est en cours de reconnaissance vocale. Ainsi, non seulement l’utilisateur sait que le microphone est ouvert, mais en outre il sait que des paroles ont bien été captées par le microphone et sont en cours de traitement de reconnaissance vocale dans le cadre de la fonction de commande vocale de l’APV.According to the embodiments of the invention, the visual animation of an avatar is obtained thanks to a discrete number of graphic representations, which make it possible to indicate, respectively, the absence of opening of the microphone, the fact that the microphone is "on" but no speech is being recorded (during a user silence phase, also called a "blank" in audio), or on the contrary the fact that speech is 'a user is registered and is being voice recognized. So not only does the user know that the microphone is on, but he also knows that speech has indeed been picked up by the microphone and is being voice-recognized as part of the voice command function of the VPA.
Il apparaîtra de la description de modes de réalisation qui va suivre que l’avatar peut donner une représentation de ces différents états de la fonction de commande vocale par, notamment, un diagramme plat, un diagramme à petites ondelettes ou un diagramme à grandes ondelettes, respectivement, avec une transition douce entre ces représentations graphiques, et de préférence avec un effet de défilement latéral des diagrammes, par exemple de la droite vers la gauche, qui donne l’impression fournie par l’animation de type «ondes acoustiques» selon l’art antérieur. De cette manière, on crée une animation proche de celle des avatars selon l’art antérieur.It will appear from the description of embodiments which will follow that the avatar can give a representation of these different states of the voice command function by, in particular, a flat diagram, a small wavelet diagram or a large wavelet diagram, respectively, with a smooth transition between these graphic representations, and preferably with a lateral scrolling effect of the diagrams, for example from right to left, which gives the impression provided by the "acoustic waves" type animation according to the prior art. In this way, an animation similar to that of the avatars according to the prior art is created.
Lafigure 2amontre le diagramme plat qui peut être affiché pour indiquer que le microphone n’est pas ouvert. Le microphone n’est pas ouvert,i.e., il est fermé, lorsque le système est mis en service. Il reste ainsi fermé jusqu’à la première identification par le moteur de détection de mot-clé d’activation, après cette mise en service du système, du mot-clé d’activation de l’APV dans le signal audio capté par le microphone. Figure 2a shows the flat diagram that can be displayed to indicate that the microphone is not open. The microphone is not open, ie , it is closed, when the system is armed. It thus remains closed until the first identification by the activation keyword detection engine, after this commissioning of the system, of the activation keyword of the APV in the audio signal picked up by the microphone. .
Ce diagramme plat peut aussi être utilisé après la «fermeture» du micro, laquelle intervient lorsque le microphone est ouvert, à l’expiration d’une temporisation déterminée depuis qu’aucun signal audio n’est plus capté par le microphone. Dit autrement, le diagramme plat peut être de nouveau affiché en tant que représentation de l’avatar, si la durée d’un «blanc» dépasse la temporisation déterminée, par exemple 10 secondes (10s), alors que le microphone est ouvert. Cette fermeture du microphone signifie alors l’arrêt de l’enregistrement du signal audio capté, et donc l’arrêt du moteur de reconnaissance vocale.This flat diagram can also be used after the microphone is “closed”, which occurs when the microphone is open, at the expiration of a determined delay since no audio signal is picked up by the microphone. In other words, the flat diagram can be displayed again as a representation of the avatar, if the duration of a "blank" exceeds the determined delay, for example 10 seconds (10s), while the microphone is open. This closing of the microphone then signifies the stopping of the recording of the captured audio signal, and therefore the stopping of the voice recognition engine.
Lafigure 2bmontre une deuxième représentation graphique de l’avatar, qui est un diagramme à petites ondelettes pouvant être affiché pour indiquer que le microphone est ouvert mais qu’aucune information de parole n’est en cours d’enregistrement. Les petites ondelettes comprennent un motif d’une onde à faible amplitude, par exemple quelques périodes d’une une onde pas vraiment sinusoïdale, comme montré, qui peut être interprétée par un utilisateur comme représentant l’enregistrement d’un bruit de fond dans le véhicule. Figure 2b shows a second graphical representation of the avatar, which is a small wavelet diagram that can be displayed to indicate that the microphone is on but no speech information is being recorded. Small wavelets include a pattern of a low amplitude wave, for example a few periods of a not truly sine wave, as shown, which can be interpreted by a user as representing the recording of background noise in the vehicle.
Lafigure 2cmontre une troisième représentation graphique de l’avatar, qui est un diagramme à grandes ondelettes qui eut être affiché pour indiquer que, au contraire, le microphone est ouvert et que de l’information de parole est enregistrée et est en cours de reconnaissance vocale par le moteur d’ASR. Dans l’exemple montré, ces grandes ondelettes ont une allure sinusoïdale, sur quelques ondulations, de préférence avec des amplitudes légèrement différentes d’une ondulation à l’autre. Figure 2c shows a third graphic representation of the avatar, which is a large wavelet diagram which could be displayed to indicate that, on the contrary, the microphone is open and speech information is recorded and is being voice recognition by the ASR engine. In the example shown, these large wavelets have a sinusoidal shape, over a few undulations, preferably with slightly different amplitudes from one undulation to another.
Dans l’exemple montré à la figure 2c, le diagramme comprend ainsi trois ondelettes représentées, dont au moins une qui a une amplitude légèrement différente de celle des deux autres. Ce diagramme peut être amené à défiler latéralement, en boucle, par exemple de la droite vers la gauche. Ainsi, cela donne l’impression à l’utilisateur que l’amplitude des ondes est modulée par les variations du niveau sonore de la voix en cours d’enregistrement, comme avec l’animation d’un avatar selon l’art antérieur fondée sur le niveau sonore en entrée du microphone. Ceci n’est toutefois qu’une impression visuelle car le motif est standard, i.e., fixe, et ce n’est que son défilement en lien avec la différence d’amplitude des quelques ondulations représentées qui simule une modulation d’amplitude par le niveau de la voix de l’utilisateur.In the example shown in Figure 2c, the diagram thus includes three represented wavelets, at least one of which has a slightly different amplitude than the other two. This diagram can be caused to scroll laterally, in a loop, for example from right to left. Thus, this gives the user the impression that the amplitude of the waves is modulated by the variations in the sound level of the voice being recorded, as with the animation of an avatar according to the prior art based on the sound level at the microphone input. This is however only a visual impression because the pattern is standard, i.e., fixed, and it is only its scrolling in connection with the difference in amplitude of the few ripples represented which simulates an amplitude modulation by the level of the user's voice.
Ainsi que l’homme du métier l’aura compris, l’amplitude de petites ondelettes du diagramme de la figure 2b est, de préférence, suffisamment élevée pour qu’un utilisateur d’attention moyenne distingue facilement ce diagramme du diagramme plat de la figure 2a. D’un autre côté, l’amplitude des petites ondelettes du diagramme de la figure 2b est, de préférence, significativement plus basse que celle des grandes ondelettes du diagramme de la figure 3c, afin que l’utilisateur distingue facilement ces deux diagrammes l’un de l’autre.As those skilled in the art will have understood, the amplitude of small wavelets of the diagram of FIG. 2b is preferably sufficiently high for a user of average attention to easily distinguish this diagram from the flat diagram of FIG. 2a. On the other hand, the amplitude of the small wavelets in the diagram of Figure 2b is preferably significantly lower than that of the large wavelets in the diagram of Figure 3c, so that the user can easily distinguish between these two diagrams. one another.
Les représentations graphiques de l’avatar données par les diagrammes de la figure 2a, de la figure 2b et de la figure 2c, sont alternatives l’une de l’autre. Dit autrement, une seule de ces représentations n’est affichée à la fois.The graphic representations of the avatar given by the diagrams of figure 2a, figure 2b and figure 2c, are alternatives to each other. In other words, only one of these representations is displayed at a time.
Toutefois, un effet de défilement latéral, par exemple de la droite vers la gauche, peut être rendu lors du remplacement d’une représentation graphique par une autre. Ceci peut donner à l’utilisateur une impression de continuité de la représentation de l’enregistrement du signal audio, comparable à l’effet procuré par une animation d’un avatar selon l’art antérieur qui a été rappelé plus haut.However, a lateral scrolling effect, for example from right to left, can be rendered when replacing one graphical representation with another. This can give the user an impression of continuity in the representation of the recording of the audio signal, comparable to the effect provided by an animation of an avatar according to the prior art which was recalled above.
Par ailleurs, il va sans dire que l’invention n’est limitée ni par le nombre, ni par le design des représentations graphiques de l’avatar.Furthermore, it goes without saying that the invention is not limited either by the number or by the design of the graphic representations of the avatar.
En particulier, lafigure 2dmontre un exemple d’une autre représentation graphique de l’avatar, qui est un diagramme plat en trait discontinu. Ce diagramme peut être affiché, par exemple, pour indiquer à l’utilisateur que le système est en mode «erreur», par exemple si le processus de la reconnaissance vocale implémentée par le moteur d’ASR est bloqué. Ceci peut notamment arriver lorsque le moteur d’ASR est exécuté sur un serveur dans le cloud et que la connexion Internet du véhicule est momentanément interrompue, par exemple si le véhicule circule dans un tunnel.In particular, Figure 2d shows an example of another graphical representation of the avatar, which is a flat, dashed line diagram. This diagram can be displayed, for example, to indicate to the user that the system is in “error” mode, for example if the voice recognition process implemented by the ASR engine is blocked. This can happen in particular when the ASR engine is running on a server in the cloud and the vehicle's Internet connection is momentarily interrupted, for example if the vehicle is driving through a tunnel.
L’homme du métier appréciera que d’autres diagrammes peuvent être utilisés pour représenter l’avatar, de façon animée ou non, à la place des exemples donnés ci-dessus, ou en complément par exemple pour indiquer à l’utilisateur d’autres informations concernant le statut de la reconnaissance vocale. Tous ces diagrammes peuvent se distinguer notamment par la forme de l’onde représentée, ou plus généralement par le motif représenté, ou par le modèle d’un trait utilisé (par exemple un trait continu, avec des petits tirets, des grands tirets, des points ou une alternance de ces motifs), ou par la couleur du trait ou de l’arrière-plan, ou encore par un effet de clignotement d’un motif représenté, etc., ou bien entendu par la combinaison de tels éléments.Those skilled in the art will appreciate that other diagrams can be used to represent the avatar, in an animated way or not, instead of the examples given above, or in addition, for example to indicate to the user other information about the voice recognition status. All these diagrams can be distinguished in particular by the shape of the wave represented, or more generally by the pattern represented, or by the model of a line used (for example a continuous line, with small dashes, large dashes, dots or an alternation of these patterns), or by the color of the line or the background, or even by a flashing effect of a pattern represented, etc., or of course by the combination of such elements.
En référence au schéma de lafigure 3, on va maintenant décrire l’architecture fonctionnelle d’un dispositif d’animation d’un avatar de reconnaissance vocale pour l’activation d’un assistant personnel virtuel dans un véhicule automobile par la voix d’un utilisateur, selon des modes de réalisation.With reference to the diagram of FIG. 3 , we will now describe the functional architecture of a device for animating a voice recognition avatar for activating a virtual personal assistant in a motor vehicle by the voice of a user, according to embodiments.
Le dispositif comprend un module de gestion de la reconnaissance vocale, ou gestionnaire de reconnaissance vocale 30. Ce module peut être un module logiciel. Il est adapté pour superviser la mise en œuvre des fonctions de transcription et d’interprétation d’un signal audio 32 capté par un microphone 31 à partir d’un message vocal prononcé par l’utilisateur 102. Les fonctions de transcription et d’interprétation peuvent être mises en œuvre par des moyens embarqués, par exemple un calculateur 33, ou par des moyens débarqués, par exemple un serveur 34 dans le cloud accessible via une interface de programmation applicative (ou API, de l’anglais «Application Programming Interface»), ou les deux, selon une implémentation hybride.The device comprises a voice recognition management module, or voice recognition manager 30. This module can be a software module. It is suitable for supervising the implementation of the transcription and interpretation functions of an audio signal 32 picked up by a microphone 31 from a voice message spoken by the user 102. The transcription and interpretation functions can be implemented by on-board means, for example a computer 33, or by off-board means, for example a server 34 in the cloud accessible via an application programming interface (or API, from the English " Application Programming Interface " ), or both, depending on a hybrid implementation.
En pratique le gestionnaire de reconnaissance vocale 30 transmet au calculateur embarqué 33 et/ou vers le serveur distant 34 dans le cloud des séquences audio correspondant à des entrées vocales extraites du signal audio 32 (par exemple des séquences temporelles de quelques secondes de durée chacune), notées «VI_audio» à la figure 3. En retour, le gestionnaire 30 peut recevoir du calculateur 33 et/ou serveur distant 34, respectivement, des transcriptions notées «VTT_Transcripts» à la figure 3, obtenues par l’application aux séquences audios d’un moteur de transcription (VTT, de l’anglais«Voice-to-Text») exécuté dans le calculateur embarqué 33 ou dans le serveur distant 34, respectivement. Le gestionnaire 30 peut aussi recevoir en retour, similairement du calculateur embarqué 33 et/ou du serveur distant 34, respectivement, des résultats de reconnaissance vocale, notés «Recognition_results» à la figure 2), obtenus par l’application aux séquences audios d’un moteur de reconnaissance vocale (VR, de l’anglais «Voice Recogn i tion») exécuté dans le calculateur 33 et/ou dans le serveur 34, respectivement.In practice, the voice recognition manager 30 transmits to the on-board computer 33 and/or to the remote server 34 in the cloud audio sequences corresponding to voice inputs extracted from the audio signal 32 (for example time sequences of a few seconds each) , denoted “ VI_audio ” in FIG. 3. In return, the manager 30 can receive from the computer 33 and/or remote server 34, respectively, transcriptions denoted “ VTT_Transcripts ” in FIG. 3, obtained by the application to the audio sequences of a transcription engine (VTT, standing for “Voice-to-Text ”) executed in the on-board computer 33 or in the remote server 34, respectively. The manager 30 can also receive in return, similarly from the onboard computer 33 and/or from the remote server 34, respectively, voice recognition results, denoted “ Recognition_results ” in FIG. 2), obtained by the application to the audio sequences of a voice recognition engine (VR, standing for “ Voice Recognition ” ) executed in the computer 33 and/or in the server 34, respectively.
L’homme du métier appréciera que les résultats de reconnaissance vocaleRecognition_Resultsse distinguent des transcriptionsSTT_Transcriptspar le fait que les premiers codent une requête ou une instruction ayant un contenu informationnel structuré (par exemple une requête exprimée sous la forme d’un adjectif interrogatif, suivi d’un verbe, d’un sujet, d’un ou plusieurs compléments circonstanciels de temps, de lieux, etc. …; ou une instructions exprimée sous la forme d’un verbe et d’un complément d’objet) résultant de l’interprétation du signal vocal relativement à un dictionnaire et à une grammaire ad-hoc et donc exploitable par exemple par un algorithme ou une intelligence artificielle de l’APV pour apporter une réponse à ladite requête ou la ladite instruction, alors que les secondes ne sont que des chaînes de caractères codant du texte qui peuvent, par exemple, être affichées pour donner un retour à l’utilisateur et/ou être mémorisées dans une mémoire dans laquelle un historique simplifiée des requêtes/instructions peut être conservé pour un réemploi ultérieur, par exemple.Those skilled in the art will appreciate that the voice recognition results Recognition_Results are distinguished from the STT_Transcripts transcriptions by the fact that the former code a request or an instruction having a structured informational content (for example a request expressed in the form of an interrogative adjective, followed by a verb, a subject, one or more circumstantial complements of times, places, etc. …; or an instruction expressed in the form of a verb and an object complement) resulting from the interpretation of the voice signal relative to a dictionary and to an ad-hoc grammar and therefore usable for example by an algorithm or an artificial intelligence of the APV to provide a response to said request or said instruction, while the seconds do not are only character strings encoding text which can, for example, be displayed to give feedback to the user and/or be stored in a memory in which a simplified history of requests/instructions can be kept for later reuse, For example.
On notera, en outre, que les transcriptionsSTT_Transcriptspeuvent être partielles, en ce sens qu’elles ne correspondent pas forcément à la transcription de l’intégralité du contenu vocal du signal audio 32. Dans un mode de réalisation, en effet, il suffit que les transcriptionsSTT_Transcriptscontiennent la transcription de mots isolés qui ont pu être identifiés dans le signal vocal 32. Cette implémentation est plus légère en termes de ressources requises, et plus rapide en termes de temps nécessaire pour la génération et la transmission des transcriptions.It will also be noted that the STT_Transcripts transcriptions may be partial, in the sense that they do not necessarily correspond to the transcription of the entire voice content of the audio signal 32. In one embodiment, in fact, it suffices that the STT_Transcripts transcripts contain the transcript of isolated words that could be identified in the voice signal 32. This implementation is lighter in terms of the resources required, and faster in terms of the time required for the generation and transmission of the transcripts.
Le dispositif peut comprendre un module 35 de gestion de l’animation de l’avatar de reconnaissance vocale. L’avatar de reconnaissance vocale est affichable par exemple sur un écran 37, par exemple l’écran du système IFI du véhicule, ou tout autre écran ou afficheur, dédié ou non à cette fonction. Dans l’exemple représenté à la figure 3, l’avatar 39 est affiché dans une zone 38 de l’écran 37, qui peut par exemple être une zone d’OSD (de l’anglais «over-screen Display»), c’est-à-dire une zone de sur-affichage se superposant, en premier plan, sur l’image affichée à l’écran qui peut alors devenir une image d’arrière-plan affichée, par exemple, en «fantôme» comme représenté. Toujours dans l’exemple représenté, l’avatar 39 qui est montré à la figure 3 est un diagramme de type onde, ici un diagramme à barres mais cela peut aussi être un diagramme de type sinusoïdal, comme on peut en rencontrer dans l’art antérieur dans lequel l’avatar est animé en fonction du niveau du signal sonore capté par le microphone.The device may comprise a module 35 for managing the animation of the voice recognition avatar. The voice recognition avatar can be displayed for example on a screen 37, for example the screen of the vehicle's IFI system, or any other screen or display, dedicated or not to this function. In the example represented in FIG. 3, the avatar 39 is displayed in an area 38 of the screen 37, which can for example be an OSD ( over-screen Display ) area, c 'that is to say an area of over-display superimposed, in the foreground, on the image displayed on the screen which can then become a background image displayed, for example, in "ghost" as represented . Still in the example represented, the avatar 39 which is shown in FIG. 3 is a wave type diagram, here a bar diagram but it can also be a sinusoidal type diagram, as can be encountered in the art previous in which the avatar is animated according to the level of the sound signal picked up by the microphone.
Le gestionnaire de reconnaissance vocale 30 peut également être chargé de l’exécution du moteur de détection du mot-clé d’activation de l’APV. Ce moteur de détection de mot-clé d’activation peut être développé et fourni sous la forme d’un bloc de traitement, de nature logicielle, par un fournisseur spécifique comme par exempleNuance Communications, Inc.,Qualcomm, Inc.,Soundhound, Inc.,Sensory, Inc., etc.The voice recognition manager 30 may also be responsible for running the APV activation keyword detection engine. This activation keyword detection engine can be developed and provided as a processing block, of a software nature, by a specific supplier such as for example Nuance Communications, Inc. , Qualcomm, Inc. , Soundhound, Inc. , Sensory, Inc. , etc.
En cas de détection du mot-clé d’activation, le gestionnaire de reconnaissance vocale 30 génère un signalAvatar_Stateindicatif de l’état opérationnel du dispositif de reconnaissance vocale. Ce signal est reçu par le module 35 de gestion de l’animation de l’avatar de reconnaissance vocale. En réponse au signalAvatar_State, dans un exemple, le module 35 peut commander le sur-affichage de l’avatar 39 sur l’écran 37 dans la zone d’affichage 38, en utilisant par exemple le diagramme de la figure 2a, c’est-à-dire le diagramme plat. En voyant apparaître cet avatar sur l’écran 37, l’utilisateur est alors informé de l’ouverture du microphone dans le cadre de la reconnaissance vocale. On rappelle que par cette expression «ouverture du microphone», l’homme du métier doit comprendre que (i.e., cela signifie que) la voix de l’utilisateur est enregistrée et analysée par le moteur d’ASR géré par le gestionnaire de reconnaissance vocale 30, car bien entendu le microphone en lui-même était déjà opérationnel pour capter le mot-clé d’activation. Le signalAvatar_Statepeut être un signal binaire, ou un signal multi-bits s’il doit indiquer plus de deux états possibles de l’avatar.Upon detection of the activation keyword, the voice recognition manager 30 generates an Avatar_State signal indicative of the operational state of the voice recognition device. This signal is received by the module 35 for managing the animation of the voice recognition avatar. In response to the Avatar_State signal, in one example, the module 35 can command the over-display of the avatar 39 on the screen 37 in the display area 38, using for example the diagram of FIG. i.e. the flat diagram. By seeing this avatar appear on the screen 37, the user is then informed of the opening of the microphone in the context of voice recognition. It is recalled that by this expression “opening of the microphone”, the person skilled in the art must understand that ( ie , this means that) the voice of the user is recorded and analyzed by the ASR engine managed by the voice recognition manager 30, because of course the microphone itself was already operational to pick up the activation keyword. The Avatar_State signal can be a binary signal, or a multi-bit signal if it is to indicate more than two possible states of the avatar.
En outre, le gestionnaire de reconnaissance vocale 30 génère aussi un signal UIS indicatif du statut de l’entrée d’information vocale par l’utilisateur. Ce signal est également reçu par le module 35 de gestion de l’animation de l’avatar de reconnaissance vocale.In addition, the voice recognition manager 30 also generates a UIS signal indicative of the status of voice information input by the user. This signal is also received by the module 35 for managing the animation of the voice recognition avatar.
Dans des modes de réalisation, le signal UIS est un signal binaire, c’est-à-dire qu’il porte une information booléenne seulement:
-dans un premier état binaire, le signal UIS indique qu’aucune information vocale n’est identifiée dans le signal audio 32 capté par le microphone 31. En réponse, le module 35 commande l’affichage de l’avatar 39 avec le diagramme de la figure 2b, c’est-à-dire le diagramme à petites ondelettes; et inversement,
-dans le second état binaire, le signal UIS indique que de l’information vocale est identifiée dans le signal audio 32 capté par le microphone 31. En réponse, le module 35 commande alors l’affichage de l’avatar 39 avec le diagramme de la figure 2c, c’est-à-dire le diagramme à grandes ondelettes.In embodiments, the UIS signal is a binary signal, i.e. it carries Boolean information only:
in a first binary state, the UIS signal indicates that no voice information is identified in the audio signal 32 picked up by the microphone 31. In response, the module 35 controls the display of the avatar 39 with the diagram of FIG. 2b, that is to say the small wavelet diagram; and conversely,
in the second binary state, the signal UIS indicates that voice information is identified in the audio signal 32 picked up by the microphone 31. In response, the module 35 then controls the display of the avatar 39 with the diagram of FIG. 2c, that is to say the large wavelet diagram.
On rappelle que l’aspect du diagramme de l’avatar 39 tel qu’il est affiché dans les deux cas ci-dessus n’est nullement corrélé au niveau sonore du signal audio 32. C’est au contraire un motif standard: soit le motif de la figure 2b, soit le motif de la figure 2c. Ces motifs, en eux-mêmes, sont fixes. Ce n’est que via un défilement latéral, par exemple de droite à gauche, en boucle, et si les quelques ondulations représentées dans le diagramme ont des amplitudes (fixes) différentes les unes-des-autres, que l’utilisateur peut avoir l’impression d’une variation d’amplitude du signal. Mais en réalité ce n’est qu’une impression visuelle, car c’est le même diagramme fixe qui défile en boucle à chaque fois.It is recalled that the aspect of the diagram of the avatar 39 as it is displayed in the two cases above is in no way correlated to the sound level of the audio signal 32. On the contrary, it is a standard pattern: either the pattern of Figure 2b, or the pattern of Figure 2c. These patterns, in themselves, are fixed. Only by scrolling sideways, for example from right to left, in a loop, and if the few ripples shown in the diagram have different (fixed) amplitudes from each other, can the user have the impression of a signal amplitude variation. But in reality it is only a visual impression, because it is the same fixed diagram which scrolls in a loop every time.
Concernant la caractère hybride de l’implémentation du dispositif de reconnaissance vocale de la figure 3, à savoir l’implémentation par des moyens embarqués et/ou par des moyens débarqués ou distants, des modes de réalisation peuvent prévoir que la mise en œuvre des fonctions de transcription et d’interprétation est réalisé de la façon suivante:
-tant que le calculateur embarqué 33 est disponible et que le serveur 34 dans le cloud 34 accessible, les transcriptionsSTT_Transcriptssont générées par le calculateur alors que les résultats de reconnaissance vocaleRecognition_Resultssont générées par le serveur distant; ceci a l’avantage de déporter la fonction d’interprétation sur un serveur distant accessible via le cloud et qui est doté de capacité de traitement plus adaptées pour cela que le calculateur embarqué, alors que les transcriptions qui sont plus aisées à générer avec un simple calculateur embarqués ont alors l’avantage d’être disponibles plus vite;
-si le calculateur embarqué 33 n’est pas disponible (par exemple si une interruption matérielle a été générée ou s’il est en attente de ressources), mais que le serveur distant est accessible, alors à la fois les transcriptionsSTT_Transcriptset les résultats de reconnaissance vocaleRecognition_Resultssont générés par le serveur distant 34;
-si inversement le calculateur embarqué 33 est disponible mais que le serveur distant 34 n’est pas accessible (par exemple en raison de la perte de la connectivité Internet), alors à la fois les transcriptionsSTT_Transcriptset les résultats de reconnaissance vocaleRecognition_Resultssont générés par le calculateur embarqué 33; et, enfin,
-si le calculateur embarqué 33 n’est pas disponible et que le serveur distant 34 n’est pas non plus accessible, alors ni les transcriptionsSTT_Transcriptsni les résultats de reconnaissance vocaleRecognition_Resultsne sont générés; dans un tel cas, par exemple, le diagramme de la figure 2b peut être affiché en tant qu’avatar de la reconnaissance vocale afin de signaler à l’utilisateur que le dispositif de reconnaissance vocale est en mode erreur.Concerning the hybrid nature of the implementation of the voice recognition device of FIG. 3, namely the implementation by on-board means and/or by on-board or remote means, embodiments can provide that the implementation of the functions transcription and interpretation is carried out as follows:
-as long as the on-board computer 33 is available and the server 34 in the cloud 34 accessible, the STT_Transcripts transcriptions are generated by the computer while the voice recognition results Recognition_Results are generated by the remote server; this has the advantage of deporting the interpretation function to a remote server accessible via the cloud and which is equipped with processing capacity more suitable for this than the on-board computer, whereas the transcriptions which are easier to generate with a simple on-board computers then have the advantage of being available more quickly;
-if the on-board computer 33 is not available (for example if a hardware interrupt has been generated or if it is waiting for resources), but the remote server is accessible, then both the STT_Transcripts transcriptions and the results Recognition_Results are generated by the remote server 34;
- if conversely the on-board computer 33 is available but the remote server 34 is not accessible (for example due to loss of Internet connectivity), then both the STT_Transcripts transcriptions and the Recognition_Results voice recognition results are generated by the on-board computer 33; and finally,
if the on-board computer 33 is not available and the remote server 34 is also not accessible, then neither the STT_Transcripts transcriptions nor the Recognition_Results voice recognition results are generated; in such a case, for example, the diagram of FIG. 2b can be displayed as an avatar of the voice recognition in order to indicate to the user that the voice recognition device is in error mode.
Le module de gestion de l’animation de l’avatar 35 est adapté pour pouvoir accéder à une mémoire dans laquelle sont sauvegardées les données codant les diagrammes représentant les différentes versions de l’avatar 39.The avatar 35 animation management module is adapted to be able to access a memory in which the data coding the diagrams representing the different versions of the avatar 39 are saved.
En résumé, l’animation de l’avatar de reconnaissance vocale qui est proposée est obtenue très simplement, sans la nécessité d’un module complexe qui est généralement disponible dans le cloud uniquement (ce qui implique que la fonctionnalité est perdue si la connexion au cloud est momentanément perdue). Dans un exemple, le gestionnaire de reconnaissance vocale 30 génère le signal de statut UIS en fonction du retour ou non des transcriptionsSTT_Transcriptspar le calculateur embarqué 33 et/ou le serveur distant 34. Comme il a été dit plus haut, en effet, ces transcriptions sont plus facilement et plus rapidement obtenues que les résultats de reconnaissance vocaleRecognition_Results. Et, elles suffisent à indiquer que l’utilisateur parle et que sa voix est captée, enregistrée, et traitée par le moteur de reconnaissance vocale. L’homme du métier appréciera que l’utilisateur peut ainsi être informé de cela, via l’affichage de l’avatar de la figure 3c, quand bien même les résultats de la reconnaissance vocale ne sont pas encore disponibles.In summary, the voice recognition avatar animation that is offered is achieved very simply, without the need for a complex module that is usually only available in the cloud (implying that functionality is lost if connecting to the cloud is temporarily lost). In one example, the voice recognition manager 30 generates the UIS status signal depending on whether or not the STT_Transcripts transcriptions are returned by the on-board computer 33 and/or the remote server 34. As mentioned above, these transcriptions are more easily and quickly obtained than Recognition_Results speech recognition results. And, they are enough to indicate that the user is speaking and that his voice is picked up, recorded, and processed by the voice recognition engine. Those skilled in the art will appreciate that the user can thus be informed of this, via the display of the avatar of FIG. 3c, even though the results of the voice recognition are not yet available.
En référence au diagramme de temps de lafigure 4et au diagramme d’étapes de lafigure 5, on va maintenant détailler le lien entre la parole de l’utilisateur contenue ou pas dans le signal audio 32 d’une part, et l’affichage de l’avatar 39 dans la fenêtre 38 de l’écran 37, d’autre part, qui est établi via le signal booléen UIS.With reference to the timing diagram in FIG. 4 and the step diagram in FIG . display of the avatar 39 in the window 38 of the screen 37, on the other hand, which is established via the Boolean signal UIS.
A la figure 4, la trace du haut repérée par la lettre A entre parenthèses, représente les transcriptions du signal audio 32 de la figure 3, dans un exemple. Ces transcriptions sont ici représentées par du texte entre guillemets (par exemple «abcd efg …»). Elles sont séparées par des blancs,i.e., des silences audio, représentés sur la trace A par le symbole "<···>".In FIG. 4, the top trace marked with the letter A in parentheses represents the transcriptions of the audio signal 32 of FIG. 3, in an example. These transcriptions are here represented by text in quotes (e.g. “abcd efg…”). They are separated by blanks, ie , audio silences, represented on trace A by the symbol "<···>".
Le chronogramme de la trace B, au centre, représente l’évolution du signal UIS indiquant le statut de l’entrée de parole par l’utilisateur, en fonction du temps, en synchronisme avec le retour au gestionnaire 30 de la figure 3 des transcriptions montrées sur la trace A. Dans l’exemple montré, le signal UIS est à l’état haut (valeur binaire «1») lorsque l’utilisateur parle (i.e., quand des transcriptions correspondantes sont reçus par le gestionnaire 30), et il est à l’état bas (valeur binaire «0») lorsque l’utilisateur se tait (i.e., quand aucune transcription n’est retournée au gestionnaire 30 parce que le signal audio 32 contient des silences audios,i.e., des blancs).The chronogram of trace B, in the center, represents the evolution of the UIS signal indicating the status of the speech input by the user, as a function of time, in synchronism with the return to the manager 30 of FIG. 3 of the transcriptions shown on trace A. In the example shown, the UIS signal is high (binary value “1”) when the user is speaking ( ie , when corresponding transcripts are received by the handler 30), and it is in the low state (binary value “0”) when the user is silent ( ie , when no transcription is returned to the handler 30 because the audio signal 32 contains audio silences, ie , blanks).
Enfin, le graphe de la trace C, en bas, montre symboliquement le défilement latéral des diagrammes des figures 2a, 2b et 2c qui sont affichés en tant qu’avatar 39 en synchronisme avec l’évolution de l’état du signal booléen UIS. L’homme du métier appréciera l’effet de modulation de l’amplitudes des ondelettes représentant l’avatar 39 du fait du défilement de la droite vers la gauche des diagrammes des figures 2b et 2c, répétés ou alternés selon la valeur binaire du signal UIS, dans la fenêtre correspondant à l’avatar 39.Finally, the graph of trace C, at the bottom, symbolically shows the lateral scrolling of the diagrams of figures 2a, 2b and 2c which are displayed as avatar 39 in synchronism with the evolution of the state of the Boolean signal UIS. Those skilled in the art will appreciate the modulation effect of the amplitudes of the wavelets representing the avatar 39 due to the scrolling from right to left of the diagrams of FIGS. 2b and 2c, repeated or alternated according to the binary value of the signal UIS , in the window corresponding to avatar 39.
La lecture de la figure 4 est la suivante, en référence aussi aux étapes du diagramme de la figure 5.The reading of Figure 4 is as follows, also with reference to the steps in the diagram of Figure 5.
On suppose que, avant l’instant 41 (tout à gauche de la figure 4), le microphone n’est pas ouvert. Le gestionnaire 30 provoque donc, via le signal de statutAvatar_Statela commande par le module 35 de l’affichage du diagramme de la figure 2a (diagramme plat) en tant qu’avatar de reconnaissance vocale. C’est l’étape de départ 50 du diagramme de la figure5.It is assumed that, before instant 41 (far left of FIG. 4), the microphone is not open. The manager 30 therefore causes, via the status signal Avatar_State , the control by the module 35 of the display of the diagram of FIG. 2a (flat diagram) as a voice recognition avatar. This is the starting step 50 of the diagram of figure 5.
Le dispositif est en sommeil, et pour le réveiller l’utilisateur doit prononcer le mot-clé d’activation. La surveillance du prononcé dudit mot-clé est représentée par l’étape 51 de la figure 5. Tant que le mot-clé d’activation n’est pas détecté, le microphone reste fermé (au sens précité), et le procédé reboucle sur l’étape 50 d’affichage du diagramme plat en tant qu’avatar. Dit autrement, l’avatar n’est pas animé. Il est fixe, visuellement, sous la forme d’un trait plat immobile.The device is sleeping, and to wake it up the user must pronounce the activation keyword. The monitoring of the pronunciation of said keyword is represented by step 51 of FIG. 5. As long as the activation keyword is not detected, the microphone remains closed (in the aforementioned sense), and the method loops back to step 50 of displaying the flat diagram as an avatar. In other words, the avatar is not animated. It is fixed, visually, in the form of a motionless flat line.
A l’instant 41, qui correspond à l’étape 52 de la figure 5, le microphone est ouvert du fait que l’utilisateur prononce le mot-clé d’activation (qui est «OKMycar» dans l’exemple montré par la trace A de la figure 4).At time 41, which corresponds to step 52 in FIG. 5, the microphone is open because the user pronounces the activation keyword (which is “OKMycar” in the example shown by the trace A of Figure 4).
Mais l’utilisateur marque une courte pause juste après l’avoir prononcé. Il se tait pendant un court moment. Le gestionnaire 30 provoque donc, via le signal de statutAvatar_Stateet le signalUISqui est mis à l’état bas (valeur binaire «0») la commande par le module 35 de l’affichage du diagramme de la figure 2b (petites ondelettes) en tant qu’avatar de reconnaissance vocale affiché, comme montré à la figure 5 par l’étape 52.But the user pauses for a short time right after saying it. He is silent for a short moment. The manager 30 therefore causes, via the status signal Avatar_State and the signal UIS which is set to the low state (binary value "0") the control by the module 35 of the display of the diagram of FIG. 2b (small wavelets ) as the displayed voice recognition avatar, as shown in Figure 5 by step 52.
A partir de l’instant 42, l’utilisateur parle de nouveau, ce qui est détecté à l’étape 53 de la figure 5. Il prononce des paroles qui donnent lieu à la réception de transcriptions correspondantes par le gestionnaire 30. La génération des transcriptions et leur réception par le gestionnaire 30 sont illustrées par l’étape 54 de la figure 5. Le signal UIS passe alors à l’état haut (valeur binaire «1»). Le module 35 commande alors le remplacement du diagramme de la figure 2b par celui de la figure 2c (grandes ondelettes) en tant qu’avatar de reconnaissance vocale affiché, ce qui est illustré par l’étape 55 du diagramme de la figure 5.From instant 42, the user speaks again, which is detected at step 53 of FIG. 5. He pronounces words which give rise to the reception of corresponding transcriptions by the manager 30. The generation of Transcriptions and their reception by the manager 30 are illustrated by step 54 of FIG. 5. The signal UIS then goes high (binary value “1”). The module 35 then commands the replacement of the diagram of FIG. 2b by that of FIG. 2c (large wavelets) as the voice recognition avatar displayed, which is illustrated by step 55 of the diagram of FIG. 5.
Ceci dure jusqu’à l’instant 43, à partir duquel l’utilisateur marque une nouvelle pause, qui donne un nouveau blanc. En référence à la figure 4, l’affichage du diagramme à grandes ondelettes de la figure 3c est renouvelé à intervalles de temps réguliers entre les instants 42 et 43, avec un effet de défilement de la droite vers la gauche. Dans la fenêtre 38 sur l’écran 37, cela donne à l’utilisateur une impression de modulation de l’amplitude des ondelettes car les quelques ondulations représentées côté-à-côte ont des amplitudes respectives différentes.This lasts until instant 43, from which the user marks a new pause, which gives a new blank. Referring to Figure 4, the display of the large wavelet diagram of Figure 3c is renewed at regular time intervals between times 42 and 43, with a scrolling effect from right to left. In the window 38 on the screen 37, this gives the user an impression of modulation of the amplitude of the wavelets because the few undulations represented side-by-side have different respective amplitudes.
A l’instant 43, l’utilisateur génère un nouveau silence audio. Le signal UIS repasse alors à l’état bas, et l’avatar reprend l’allure du diagramme à petites ondelettes de la figure 2b. Ceci est illustré par le rebouclage de l’étape 54 sur l’étape 52 de la figure 5. Dans l’exemple représentée, la durée de ce silence est inférieure à un seuil déterminé,i.e., une temporisation déterminée.At time 43, the user generates new audio silence. The signal UIS then returns to the low state, and the avatar resumes the appearance of the small wavelet diagram of FIG. 2b. This is illustrated by the looping back from step 54 to step 52 of FIG. 5. In the example shown, the duration of this silence is less than a determined threshold, ie a determined time delay.
En effet, à l’instant 44, l’utilisateur prononce un complément à sa requête ou à son instruction, par exemple pour ajouter une précision. Le signal UIS repasse alors à l’état haut, et l’avatar reprend le diagramme à grandes ondelettes de la figure 2c. Dit autrement, les étapes 53, 54 et 55 sont exécutées de nouveau, dans cet ordre.Indeed, at time 44, the user pronounces an addition to his request or his instruction, for example to add a precision. The UIS signal then returns to the high state, and the avatar resumes the large wavelet diagram of figure 2c. In other words, steps 53, 54 and 55 are executed again, in this order.
Ce complément de parole s’achève à l’instant 45, à partir duquel l’utilisateur se tait de nouveau. Le signal UIS repasse à l’état bas, et c’est de nouveau le diagramme à petites ondelettes de la figure 2b qui est affiché comme avatar. Dit autrement, l’étape 52 est répétée. Toutefois, ce nouveau silence de l’utilisateur, contrairement à celui entre les instants 43 et 44, dure plus longtemps que la temporisation précitée.This additional speech ends at time 45, from which the user is silent again. The UIS signal returns to the low state, and it is again the small wavelet diagram of figure 2b which is displayed as an avatar. In other words, step 52 is repeated. However, this new user silence, unlike that between times 43 and 44, lasts longer than the aforementioned time delay.
C’est pourquoi, à l’instant 46, le diagramme à petites ondelettes est remplacé par le diagramme plat de la figure 2a. Ceci correspond à la fermeture du micro, c’est-à-dire à l’arrêt de l’enregistrement du signal capté par le microphone et l’arrêt de l’exécution du moteur de reconnaissance vocale. En référence au diagramme de la figure 5, l’algorithme repasse à l’étape 50.This is why, at instant 46, the small wavelet diagram is replaced by the flat diagram of figure 2a. This corresponds to closing the microphone, i.e. stopping the recording of the signal picked up by the microphone and stopping the execution of the voice recognition engine. Referring to the diagram in Figure 5, the algorithm returns to step 50.
Pour relancer cette exécution, et réanimer l’avatar de reconnaissance vocale conformément aux modes de réalisation qui ont été décrit dans ce qui précède, l’utilisateur devra prononcer une nouvelle fois le mot-clé d’activation «OKMyCar», qui sera détecté à l’étape 51, et ainsi de suite.To restart this execution, and reanimate the voice recognition avatar in accordance with the embodiments which have been described above, the user will have to pronounce once again the activation keyword “OKMyCar”, which will be detected at step 51, and so on.
En résumé, à l'activation de la reconnaissance vocale par la détection du mot-clé d’activation, le système passe dans un état d’écoute". Dans cet état, l’avatar est animé, en fonction de l'activité de retranscription de la commande vocale entrée oralement par l'utilisateur. Tant que l'utilisateur parle, avec le cas échéant des blancs qui ne dépassent pas la durée d’une temporisation déterminée, la transcription écrite a lieu et l'avatar s'anime, soit avec des petites ondelettes pendant les blancs, soit avec des grandes ondelettes pendant la phase de parole. Dès que l'activité de transcription s'arrête (commande vocale de l'utilisateur terminée) l'avatar cesse de s'animer.In summary, when voice recognition is activated by detecting the activation keyword, the system goes into a "listening" state. In this state, the avatar is animated, depending on the activity of transcription of the voice command entered orally by the user. As long as the user speaks, with any gaps that do not exceed the duration of a determined time delay, the written transcription takes place and the avatar comes alive, either with small wavelets during the blanks, or with large wavelets during the speech phase As soon as the transcription activity stops (user's voice command finished) the avatar stops animating.
L’homme du métier appréciera que les modules 30 et 35 de la figure 3 sont des entités purement fonctionnelles, distinguées à la figure pour les seuls besoins de la clarté de l’exposé qui précède. En pratique toutefois, tous ou une partie au moins de ces éléments sont des éléments logiciels exécutés dans un calculateur qui met en œuvre le dispositif, qui peut être le calculateur 33 de la figure 3, en sorte que le découpage au niveau du logiciel entre des éléments fonctionnels peuvent varier selon les applications.Those skilled in the art will appreciate that the modules 30 and 35 of FIG. 3 are purely functional entities, distinguished in the figure for the sole purpose of the clarity of the preceding discussion. In practice, however, all or at least part of these elements are software elements executed in a computer which implements the device, which may be the computer 33 of FIG. Functional elements may vary by application.
De manière générale, la présente invention a été décrite et illustrée dans la présente description détaillée et dans les figures des dessins annexés, dans des formes de réalisation possibles. La présente invention ne se limite pas, toutefois, aux formes de réalisation présentées. D’autres variantes et modes de réalisation peuvent être déduits et mis en œuvre par la personne du métier à la lecture de la présente description et des dessins annexés.In general, the present invention has been described and illustrated in this detailed description and in the figures of the accompanying drawings, in possible embodiments. The present invention is not, however, limited to the embodiments shown. Other variants and embodiments can be deduced and implemented by those skilled in the art on reading this description and the accompanying drawings.
Dans le présent exposé, le terme "comprendre" ou "comporter" n’exclut pas d’autres éléments ou d’autres étapes. Un seul processeur ou plusieurs autres unités peuvent être utilisées pour mettre en œuvre l’invention. Les différentes caractéristiques présentées peuvent être avantageusement combinées. Leur présence dans des parties différentes, n’excluent pas cette possibilité. Les signes de référence ne sauraient être compris comme limitant la portée de l’invention.In this presentation, the term "understanding" or "behaving" does not exclude other elements or other steps. A single processor or several other units can be used to implement the invention. The various characteristics presented can be advantageously combined. Their presence in different parts does not exclude this possibility. The reference signs cannot be understood as limiting the scope of the invention.
Claims (10)
-l’ouverture d’un microphone (31) pour la capture d’un signal audio (32) dans le véhicule automobile en vue de l’application d’un traitement de reconnaissance vocale audit signal audio;
-le traitement en continu, par un moteur de reconnaissance vocale (33,34), du signal audio capturé par le microphone pour détecter, le cas échéant, de l’information de parole prononcée par l’utilisateur afin de commander l’assistant personnel virtuel, et la génération d’une information numérique binaire (UIS) ayant une première valeur binaire si le microphone est ouvert mais qu’aucune information de parole n’est reconnue dans le signal audio capturé, et une seconde valeur binaire, différente de ladite première valeur binaire, si le microphone est ouvert et qu’une information de parole est reconnue dans le signal audio;
-l’affichage d’une incarnation visuelle, ou avatar (39), avec une première représentation graphique ou une seconde représentation graphique, respectivement, selon la valeur binaire de l’information numérique binaire.Method of visual animation of an interface device for the voice control of a virtual personal assistant on board a motor vehicle (101) and controlled by the voice of a user (102), comprising:
- the opening of a microphone (31) for capturing an audio signal (32) in the motor vehicle with a view to applying a voice recognition processing to said audio signal;
- the continuous processing, by a voice recognition engine (33, 34), of the audio signal captured by the microphone to detect, if necessary, speech information pronounced by the user in order to control the personal assistant virtual, and generating a binary digital information (UIS) having a first binary value if the microphone is open but no speech information is recognized in the captured audio signal, and a second binary value, different from said first binary value, if the microphone is open and speech information is recognized in the audio signal;
- displaying a visual embodiment, or avatar (39), with a first graphical representation or a second graphical representation, respectively, depending on the binary value of the binary digital information.
-des moyens pour capturer un signal audio (32) à l’aide d’un microphone (31) dans le véhicule automobile en vue de l’application d’un traitement de reconnaissance vocale audit signal audio;
-un moteur de reconnaissance vocale (33,34) configuré pour appliquer en continu un traitement de reconnaissance vocale au signal audio capturé par le microphone en vue de détecter, le cas échéant, de l’information de parole prononcée par l’utilisateur afin de commander l’assistant personnel virtuel, et pour générer une information numérique binaire (UIS) ayant une première valeur binaire si le microphone est ouvert mais qu’aucune information de parole n’est reconnue dans le signal audio capturé, et une seconde valeur binaire, différente de ladite première valeur binaire, si le microphone est ouvert et qu’une information de parole est reconnue dans le signal audio;
-un afficheur (37) adapté pour l’affichage d’une incarnation visuelle, ou avatar (39), avec une première représentation graphique ou une seconde représentation graphique, respectivement, selon la valeur binaire de l’information numérique binaire.Device for visual animation of an interface device for voice control of a virtual personal assistant on board a motor vehicle (101) and controlled by the voice of a user (102), comprising:
-means for capturing an audio signal (32) using a microphone (31) in the motor vehicle with a view to applying voice recognition processing to said audio signal;
-a voice recognition engine (33,34) configured to continuously apply voice recognition processing to the audio signal captured by the microphone in order to detect, if necessary, speech information spoken by the user in order to controlling the virtual personal assistant, and for generating binary digital information (UIS) having a first binary value if the microphone is open but no speech information is recognized in the captured audio signal, and a second binary value, different from said first binary value, if the microphone is open and speech information is recognized in the audio signal;
- a display (37) suitable for displaying a visual incarnation, or avatar (39), with a first graphic representation or a second graphic representation, respectively, according to the binary value of the binary digital information.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
FR1914929A FR3105499B1 (en) | 2019-12-18 | 2019-12-18 | Method and device for visual animation of a voice command interface of a virtual personal assistant on board a motor vehicle, and motor vehicle incorporating it |
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
FR1914929A FR3105499B1 (en) | 2019-12-18 | 2019-12-18 | Method and device for visual animation of a voice command interface of a virtual personal assistant on board a motor vehicle, and motor vehicle incorporating it |
FR1914929 | 2019-12-18 |
Publications (2)
Publication Number | Publication Date |
---|---|
FR3105499A1 true FR3105499A1 (en) | 2021-06-25 |
FR3105499B1 FR3105499B1 (en) | 2021-12-24 |
Family
ID=70456880
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
FR1914929A Expired - Fee Related FR3105499B1 (en) | 2019-12-18 | 2019-12-18 | Method and device for visual animation of a voice command interface of a virtual personal assistant on board a motor vehicle, and motor vehicle incorporating it |
Country Status (1)
Country | Link |
---|---|
FR (1) | FR3105499B1 (en) |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20110083075A1 (en) | 2009-10-02 | 2011-04-07 | Ford Global Technologies, Llc | Emotive advisory system acoustic environment |
US20110193726A1 (en) | 2010-02-09 | 2011-08-11 | Ford Global Technologies, Llc | Emotive advisory system including time agent |
WO2014189486A1 (en) * | 2013-05-20 | 2014-11-27 | Intel Corporation | Natural human-computer interaction for virtual personal assistant systems |
US20140358545A1 (en) | 2013-05-29 | 2014-12-04 | Nuance Communjications, Inc. | Multiple Parallel Dialogs in Smart Phone Applications |
-
2019
- 2019-12-18 FR FR1914929A patent/FR3105499B1/en not_active Expired - Fee Related
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20110083075A1 (en) | 2009-10-02 | 2011-04-07 | Ford Global Technologies, Llc | Emotive advisory system acoustic environment |
US20110193726A1 (en) | 2010-02-09 | 2011-08-11 | Ford Global Technologies, Llc | Emotive advisory system including time agent |
WO2014189486A1 (en) * | 2013-05-20 | 2014-11-27 | Intel Corporation | Natural human-computer interaction for virtual personal assistant systems |
US20140358545A1 (en) | 2013-05-29 | 2014-12-04 | Nuance Communjications, Inc. | Multiple Parallel Dialogs in Smart Phone Applications |
Also Published As
Publication number | Publication date |
---|---|
FR3105499B1 (en) | 2021-12-24 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP7418526B2 (en) | Dynamic and/or context-specific hotwords to trigger automated assistants | |
EP0974221B1 (en) | Radiotelephone voice control device, in particular for use in a motor vehicle | |
US12080280B2 (en) | Systems and methods for determining whether to trigger a voice capable device based on speaking cadence | |
CN110770772B (en) | Virtual assistant configured to automatically customize action groups | |
JP6789320B2 (en) | Providing a state machine personal assistant module that can be traced selectively | |
CN111694433B (en) | Voice interaction method and device, electronic equipment and storage medium | |
US11302325B2 (en) | Automatic dialogue design | |
CN110473556B (en) | Voice recognition method and device and mobile terminal | |
JP7371135B2 (en) | Speaker recognition using speaker specific speech models | |
CN111755002A (en) | Speech recognition device, electronic apparatus, and speech recognition method | |
JP2024510698A (en) | Contextual suppression of assistant commands | |
FR3105499A1 (en) | Method and device for visual animation of a voice control interface of a virtual personal assistant on board a motor vehicle, and a motor vehicle incorporating it | |
EP3627510A1 (en) | Filtering of an audio signal acquired by a voice recognition system | |
CN113948076A (en) | Voice interaction method, device and system | |
FR3097364A1 (en) | Signal processing architecture for detecting an activation keyword in an audio signal, method of managing a personal digital assistant using it, and a motor vehicle incorporating it | |
EP4062401B1 (en) | Device for implementing a virtual personal assistant in a motor vehicle with user voice control, and motor vehicle incorporating same | |
FR3026542A1 (en) | RECOGNIZED VOICE RECOGNITION | |
FR3102287A1 (en) | Method and device for implementing a virtual personal assistant in a motor vehicle using a connected device | |
FR3100206A1 (en) | Device for implementing a virtual personal assistant in a motor vehicle with control by the voice of a user, and a motor vehicle incorporating it | |
FR3106009A1 (en) | Method and device for selecting entertainment by a virtual personal assistant on board a motor vehicle, and a motor vehicle incorporating it | |
US20230395066A1 (en) | Hot-word free pre-emption of automated assistant response presentation | |
CN114582347A (en) | Method, apparatus, device and medium for determining speech semantics based on wake word speech rate | |
FR3089035A1 (en) | Method for selective activation of virtual personal assistants in a motor vehicle | |
FR3100367A1 (en) | IT agent with advanced response to a user message | |
FR3022068A1 (en) | SPEECH TREATMENT DEVICE DEVICE DARKNESS MANAGEMENT METHOD |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PLFP | Fee payment |
Year of fee payment: 2 |
|
PLSC | Publication of the preliminary search report |
Effective date: 20210625 |
|
PLFP | Fee payment |
Year of fee payment: 3 |
|
ST | Notification of lapse |
Effective date: 20230808 |