FR3022068A1 - SPEECH TREATMENT DEVICE DEVICE DARKNESS MANAGEMENT METHOD - Google Patents

SPEECH TREATMENT DEVICE DEVICE DARKNESS MANAGEMENT METHOD Download PDF

Info

Publication number
FR3022068A1
FR3022068A1 FR1455088A FR1455088A FR3022068A1 FR 3022068 A1 FR3022068 A1 FR 3022068A1 FR 1455088 A FR1455088 A FR 1455088A FR 1455088 A FR1455088 A FR 1455088A FR 3022068 A1 FR3022068 A1 FR 3022068A1
Authority
FR
France
Prior art keywords
user
speech
error
type
voice recognition
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
FR1455088A
Other languages
French (fr)
Other versions
FR3022068B1 (en
Inventor
Duvergey Celine Taccori
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
PSA Automobiles SA
Original Assignee
Peugeot Citroen Automobiles SA
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Peugeot Citroen Automobiles SA filed Critical Peugeot Citroen Automobiles SA
Priority to FR1455088A priority Critical patent/FR3022068B1/en
Publication of FR3022068A1 publication Critical patent/FR3022068A1/en
Application granted granted Critical
Publication of FR3022068B1 publication Critical patent/FR3022068B1/en
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/16Sound input; Sound output
    • G06F3/167Audio in a user interface, e.g. using voice commands for navigating, audio feedback
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/225Feedback of the input speech
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04MTELEPHONIC COMMUNICATION
    • H04M3/00Automatic or semi-automatic exchanges
    • H04M3/42Systems providing special services or facilities to subscribers
    • H04M3/487Arrangements for providing information services, e.g. recorded voice services or time announcements
    • H04M3/493Interactive information services, e.g. directory enquiries ; Arrangements therefor, e.g. interactive voice response [IVR] systems or voice portals
    • H04M3/4936Speech interaction details

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Multimedia (AREA)
  • Theoretical Computer Science (AREA)
  • General Health & Medical Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Acoustics & Sound (AREA)
  • User Interface Of Digital Computer (AREA)

Abstract

L'invention concerne un procédé de traitement de la parole d'un utilisateur comportant une étape d'acquisition (21), par l'intermédiaire d'un microphone, de la parole de l'utilisateur et application d'une fonction de reconnaissance vocale sur la parole reçue, caractérisé en ce qu'il comporte en outre des étapes de : Si la reconnaissance vocale échoue une première fois, - La détermination (22) d'un premier type d'erreur de reconnaissance, - L'émission (23) d'un premier message adapté au type d'erreur détecté, - Deuxième (24) acquisition et reconnaissance vocale, Si la deuxième reconnaissance vocale échoue, - La détermination (25) d'un deuxième type d'erreur de reconnaissance, - L'émission (26) d'un deuxième message adapté au type d'erreur détecté, - Troisième (27) acquisition et reconnaissance vocale, Si la troisième reconnaissance vocale échoue, - L'émission (28) d'un message renvoyant l'utilisateur vers une modalité alternative pour l'acquisition de ladite commande.The invention relates to a method for processing the speech of a user comprising a step of acquiring (21), via a microphone, the speech of the user and applying a voice recognition function on the received speech, characterized in that it further comprises steps of: If the voice recognition fails a first time, - The determination (22) of a first type of recognition error, - The emission (23 ) a first message adapted to the type of detected error, - Second (24) acquisition and voice recognition, If the second voice recognition fails, - The determination (25) of a second type of recognition error, - L transmitting (26) a second message adapted to the type of detected error, - third (27) acquisition and voice recognition, if the third voice recognition fails, - transmitting (28) a message returning the user to an alternative modality for the acquisition of ladit e command.

Description

PROCEDE DISPOSITIF DE TRAITEMENT DE LA PAROLE GESTION DES ECARTS AU DIALOGUE L'invention concerne les systèmes de reconnaissance vocale et, plus particulièrement, ceux permettant une correction d'erreur de reconnaissance. Les systèmes de reconnaissance vocale selon l'art connu comprennent généralement un microphone pour enregistrer la parole d'un utilisateur. La parole est numérisée puis analysée de sorte à identifier une succession de mots. Malgré les progrès effectués ces dernières années, ces systèmes commettent parfois des erreurs de reconnaissance, en restituant des mots différents de ceux prononcés par l'utilisateur. Ceci est particulièrement vrai dans un environnement bruyant tel que peut l'être un habitacle de véhicule. Une étape de correction est alors nécessaire. Toute étape de dialogue implémentée dans un système vocal a pour but de récupérer une information sur un sujet particulier. Si le système ne parvient pas à apparier ce qui est dit avec une commande active, il doit alors reposer sa question et est ainsi entraîné dans des actions répétitives. On parle alors d'écart au dialogue normal. Le dialogue s'écarte d'un déroulement parfaitement efficace puisque plusieurs tours de parole sont nécessaires pour franchir une étape de dialogue. On connaît, par exemple, par la demande brevet US2010023320 un procédé pour la gestion d'une mauvaise reconnaissance vocale. Lors d'un problème de reconnaissance vocale, il est prévu que l'utilisateur vérifie le résultat de la reconnaissance et répète sa phrase si besoin. Un tel système a pour inconvénient de contraindre l'utilisateur à répéter sa commande vocale sans aucune indication du système quant aux erreurs de reconnaissance. L'utilisateur peut potentiellement boucler à l'infini dans son dialogue avec le système. L'invention a donc pour but de proposer un procédé et un dispositif de 30 reconnaissance vocale permettant une correction d'erreurs de reconnaissance et en particulier permettant une gestion des écarts au dialogue améliorée et compatible avec la conduite d'un véhicule.The invention relates to voice recognition systems and, more particularly, those for recognition error correction. Speech recognition systems according to the prior art generally include a microphone for recording the speech of a user. Speech is digitized and analyzed to identify a succession of words. Despite the progress made in recent years, these systems sometimes make mistakes in recognition, restoring words different from those spoken by the user. This is particularly true in a noisy environment such as a vehicle interior. A correction step is then necessary. Any dialogue step implemented in a voice system is intended to retrieve information on a particular subject. If the system can not match what is said with an active command, then it must rest its question and thus be dragged into repetitive actions. This is called a gap in normal dialogue. The dialogue deviates from a perfectly effective procedure since several turns of speech are necessary to cross a stage of dialogue. For example, patent application US2010023320 discloses a method for managing a poor voice recognition. During a speech recognition problem, the user is expected to check the result of the recognition and repeat his sentence if necessary. Such a system has the disadvantage of compelling the user to repeat his voice command without any indication of the system as to recognition errors. The user can potentially loop to infinity in his dialogue with the system. The invention therefore aims to provide a method and a voice recognition device for a correction of recognition errors and in particular for improved management of differences in dialogue and compatible with the driving of a vehicle.

Elle propose plus précisément à cet effet un procédé de traitement de la parole d'un utilisateur pour l'acquisition d'une commande, ledit procédé comportant une étape d'acquisition (21), par l'intermédiaire d'un microphone (11), de la parole de l'utilisateur et d'application d'une fonction de reconnaissance vocale sur la parole reçue, caractérisé en ce qu'il comporte en outre : Si la reconnaissance vocale échoue une première fois, - La détermination (22) d'un premier type d'erreur de reconnaissance, - L'émission (23) d'un premier message adapté au premier type d'erreur détecté, - Une deuxième (24) acquisition et reconnaissance vocale, Si la deuxième reconnaissance vocale échoue, - La détermination (25) d'un deuxième type d'erreur de 15 reconnaissance, - L'émission (26) d'un deuxième message adapté au deuxième type d'erreur détecté, - Une troisième (27) acquisition et reconnaissance vocale, Si la troisième reconnaissance vocale échoue, 20 - L'émission (28) d'un troisième message renvoyant l'utilisateur vers une modalité alternative pour l'acquisition de ladite commande. L'utilisation d'une modalité alternative en cas d'erreurs répétées permet, d'une part, de mettre un terme à la répétition d'erreurs de reconnaissance vocale et, d'autre part, d'orienter l'utilisateur vers un autre 25 mode de dialogue permettant de communiquer facilement au dispositif sa commande. L'invention est compatible avec la conduite d'un véhicule car, en limitant le nombre d'étapes de dialogue, elle requiert beaucoup moins d'attention de la part de l'utilisateur. L'utilisation de messages adaptés en fonction du type d'erreur détectée permet d'indiquer à l'utilisateur comment procéder pour être compris par le dispositif. Cela contribue aussi à réduire l'attention requise de la part de l'utilisateur. Avantageusement, si le premier et le deuxième type d'erreur détecté sont identiques, alors le premier et le deuxième message sont différents. Cette caractéristique permet d'éviter la répétition à l'identique d'un message qui a induit une erreur. Ceci permet d'améliorer le guidage de l'utilisateur dans la gestion des écarts au dialogue. Avantageusement, le procédé de traitement de la parole selon l'invention comporte en outre une étape d'identification de l'utilisateur, le deuxième message étant aussi adapté en fonction de l'utilisateur identifié. Cette caractéristique permet d'adapter le deuxième message notamment en fonction de l'expérience de l'utilisateur avec le dispositif de traitement de la parole. Ceci contribue aussi à améliorer le guidage de l'utilisateur dans la gestion des écarts au dialogue. Avantageusement, le procédé de traitement de la parole selon l'invention comporte en outre une étape d'activation de la modalité alternative proposée à l'utilisateur. De cette façon, l'utilisateur peut directement dialoguer selon la nouvelle modalité et communiquer rapidement ses instructions au dispositif. Avantageusement, la détermination d'un premier type d'erreur et la détermination d'un deuxième type d'erreur permettent chacune de distinguer au moins deux types d'erreur, une erreur de type silence et une erreur de type rejet.It proposes more specifically for this purpose a speech processing method of a user for the acquisition of a command, said method comprising an acquisition step (21), via a microphone (11) , the speech of the user and application of a speech recognition function on the received speech, characterized in that it further comprises: If the voice recognition fails a first time, - The determination (22) d a first type of recognition error, - the transmission (23) of a first message adapted to the first type of error detected, - a second (24) acquisition and voice recognition, If the second voice recognition fails, - The determination (25) of a second type of recognition error, - The transmission (26) of a second message adapted to the second type of detected error, - A third (27) acquisition and voice recognition, Si the third voice recognition fails, 20 - The broadcast ( 28) of a third message returning the user to an alternative mode for acquiring said command. The use of an alternative mode in the event of repeated errors makes it possible, on the one hand, to put an end to the repetition of voice recognition errors and, on the other hand, to direct the user towards another one. 25 mode of dialogue for communicating easily to the device control. The invention is compatible with the driving of a vehicle because, by limiting the number of dialogue steps, it requires much less attention from the user. The use of messages adapted according to the type of detected error makes it possible to indicate to the user how to proceed to be understood by the device. It also helps to reduce the attention required from the user. Advantageously, if the first and second type of detected error are identical, then the first and second messages are different. This feature makes it possible to avoid the identical repetition of a message that has caused an error. This makes it possible to improve the guidance of the user in managing discrepancies in the dialogue. Advantageously, the speech processing method according to the invention further comprises a step of identifying the user, the second message being also adapted according to the identified user. This feature makes it possible to adapt the second message in particular according to the experience of the user with the speech processing device. This also helps to improve the user's guidance in managing discrepancies in the dialogue. Advantageously, the speech processing method according to the invention further comprises a step of activating the alternative modality proposed to the user. In this way, the user can directly dialogue according to the new modality and quickly communicate his instructions to the device. Advantageously, the determination of a first type of error and the determination of a second type of error each make it possible to distinguish at least two types of error, a silence type error and a rejection type error.

Avantageusement, la modalité alternative est un écran tactile. L'utilisation d'un écran tactile permet, par exemple, l'affichage d'alternatives facilement sélectionnables par un utilisateur. L'invention concerne aussi un dispositif de traitement de la parole d'un utilisateur comportant un microphone pour enregistrer la parole d'un utilisateur, une unité de traitement apte à commander une fonction de reconnaissance vocale sur la parole enregistré, caractérisé en ce que l'unité de traitement est adaptée pour mettre en oeuvre le procédé selon l'invention. Avantageusement, la modalité alternative, indiquée par le troisième message, est un écran tactile. L'invention concerne aussi un véhicule comportant un dispositif de traitement de la parole selon l'invention. D'autres caractéristiques et avantages de l'invention apparaîtront à l'examen de la description détaillée ci-après, et des dessins annexés, sur lesquels: - la figure 1 illustre un diagramme montrant une vue schématique d'un dispositif selon l'invention ; - la figure 2 illustre un diagramme présentant le procédé selon l'invention. Les dessins annexés pourront non seulement servir à compléter l'invention, mais aussi contribuer à sa définition, le cas échéant. En référence à la figure 1, le dispositif 10 de traitement de la parole d'un utilisateur comporte : un microphone 11, une unité de traitement 12 et une modalité alternative au microphone 11, par exemple un moyen d'affichage 13 et un moyen de sélection 14. Le microphone 11 permet d'enregistrer la parole d'un utilisateur situé dans l'habitacle du véhicule.Advantageously, the alternative modality is a touch screen. The use of a touch screen allows, for example, the display of alternatives easily selectable by a user. The invention also relates to a device for processing the speech of a user comprising a microphone for recording the speech of a user, a processing unit able to control a speech recognition function on the recorded speech, characterized in that processing unit is adapted to implement the method according to the invention. Advantageously, the alternative mode, indicated by the third message, is a touch screen. The invention also relates to a vehicle comprising a speech processing device according to the invention. Other features and advantages of the invention will appear on examining the detailed description below, and the accompanying drawings, in which: - Figure 1 illustrates a diagram showing a schematic view of a device according to the invention ; - Figure 2 illustrates a diagram showing the method according to the invention. The attached drawings may not only serve to complete the invention, but also contribute to its definition, if any. With reference to FIG. 1, the device 10 for processing the speech of a user comprises: a microphone 11, a processing unit 12 and an alternative mode to the microphone 11, for example a display means 13 and a means of selection 14. The microphone 11 can record the speech of a user located in the passenger compartment of the vehicle.

L'unité de traitement 12 est un calculateur, comprenant une mémoire et un processeur, apte à exécuter ou à commander l'exécution d'une fonction de reconnaissance vocale. L'unité de traitement 12 est reliée au microphone 11 et au moyen de sélection 14 et est apte à commander le moyen d'affichage 13.The processing unit 12 is a computer, comprising a memory and a processor, capable of executing or controlling the execution of a voice recognition function. The processing unit 12 is connected to the microphone 11 and to the selection means 14 and is able to control the display means 13.

La fonction de reconnaissance vocale est une fonction connue de l'état de la technique qui permet de reconnaitre des mots à partir d'une parole prononcée par un utilisateur et préalablement numérisée. Selon une caractéristique de l'invention, la fonction de reconnaissance vocale distingue, au moins deux types d'erreur par exemple le silence et le rejet qui sont deux cas généralement distingués par les automates de reconnaissance vocale en cas d'incapacité à identifier une commande valide. Le silence correspond à une absence de réponse de la part de l'utilisateur (i.e. absence de signal reçu par l'automate). Le rejet correspond à l'incapacité de l'automate à apparier les mots prononcés par l'utilisateur avec les mots prévus dans le vocabulaire de l'application. D'autres erreurs peuvent être distinguées en fonction de la finesse des traitements permis par l'automate de reconnaissance vocale. Par exemple, un troisième cas correspond à la détection d'un signal dépassant un temps maximum imparti (généralement 10 secondes). Cela se produit par exemple si l'utilisateur parle sans s'interrompre ou encore, si une vitre ouverte génère un bruit fort en continu. D'autres erreurs peuvent être distinguées par exemple : vitre ouverte, deux sources de parole simultanées, marques d'hésitation, marques d'agacement, musique de fond, etc.The voice recognition function is a known function of the state of the art which makes it possible to recognize words from a speech pronounced by a user and previously digitized. According to one characteristic of the invention, the voice recognition function distinguishes at least two types of error, for example silence and rejection, which are two cases generally distinguished by speech recognition machines in the event of their inability to identify a command. valid. The silence corresponds to a lack of response from the user (i.e. absence of signal received by the PLC). The rejection corresponds to the automaton's inability to match the words pronounced by the user with the words provided for in the vocabulary of the application. Other errors can be distinguished according to the fineness of the processing allowed by the voice recognition machine. For example, a third case corresponds to the detection of a signal exceeding a maximum time allowed (generally 10 seconds). This occurs for example if the user speaks without interruption or if an open window generates a loud noise continuously. Other errors can be distinguished for example: open window, two sources of simultaneous speech, marks of hesitation, marks of annoyance, background music, etc.

Dans la suite de la description, on considère à titre d'exemple et de façon non limitative, que la fonction de reconnaissance vocale distingue deux types erreur : silence et rejet. Le moyen d'affichage 13, par exemple un écran LCD, permet notamment d'afficher des mots reconnus par la fonction de reconnaissance 20 vocale. Le moyen de sélection 14 permet à un utilisateur de sélectionner des objets graphiques affichés à l'écran. La sélection est transmise sous la forme d'un signal à l'unité de traitement 12. De façon avantageuse, le moyen d'affichage 13 et le moyen de 25 sélection 14 sont assurés par un écran tactile, mais tout autre moyen de repérer une zone de l'écran est utilisable, en particulier, un désignateur ou un pavé tactile (ou touch pad). L'invention concerne aussi un procédé de traitement de la parole d'un utilisateur. En référence à la figure 2, le procédé comporte les étapes 30 suivantes. Le procédé comporte, tout d'abord, une étape de réception 21, par l'intermédiaire du microphone 11, de la parole de l'utilisateur. Le procédé comporte aussi l'application 22 d'une fonction de reconnaissance vocale sur la parole reçue. L'unité de traitement exécute ou commande l'exécution de la fonction de reconnaissance vocale sur la parole de l'utilisateur enregistrée, par le microphone 11, et numérisée. La reconnaissance vocale peut être effectuée sur un calculateur dans le véhicule ou à distance sur un calculateur débarquée, la parole numérisée et le résultat de la reconnaissance étant, dans ce second cas, échangés par le biais d'une communication sans fils. la Le procédé comporte, en outre, si la reconnaissance vocale échoue une première fois, la détermination 22, par la fonction de reconnaissance vocale, d'un premier type d'erreur de reconnaissance. Le type d'erreur détecté est transmis à l'unité de traitement 12 qui émet 23, en réponse, un premier message, destiné à l'utilisateur et adapté au 15 type d'erreur détecté. Si l'utilisateur n'a pas répondu (i.e. le dispositif ne détecte que du silence) le dispositif notifie cette absence de réaction. Un simple message de relance (« Je vous écoute ») est émis dans la mesure où il peut s'agir d'une mise en attente volontaire pour prioriser l'activité de conduite. 20 Si l'utilisateur a produit une commande vocale non interprétable par le la fonction de reconnaissance vocale (i.e. mots n'appartenant pas au vocabulaire de l'automate de reconnaissance vocale ou une expression non reconnue par le module de traitement sémantique) le dispositif notifie cette absence de compréhension. Une simple demande de répétition (« Pardon ») 25 est émise dans la mesure où il peut s'agir d'une banale erreur de prononciation. Appliquée en situation de conduite, l'émission 23 d'un premier message adapté permet au conducteur de prioriser sa conduite et de lui laisser simplement formuler ou répéter sa requête sans lui donner des 30 explications supplémentaires. La supposition est faite que le conducteur sait ce qu'il doit dire au dispositif et qu'à cette première étape, il n'a pas réussi à le formuler.In the remainder of the description, it is considered by way of example and without limitation, that the voice recognition function distinguishes two types of error: silence and rejection. The display means 13, for example an LCD screen, makes it possible, in particular, to display words recognized by the voice recognition function. The selection means 14 allows a user to select graphical objects displayed on the screen. The selection is transmitted as a signal to the processing unit 12. Advantageously, the display means 13 and the selection means 14 are provided by a touch screen, but any other means of locating a screen area is usable, in particular, a designator or a touch pad (or touch pad). The invention also relates to a method of processing the speech of a user. With reference to FIG. 2, the method comprises the following steps. The method comprises, first of all, a reception step 21, via the microphone 11, of the user's speech. The method also includes applying a voice recognition function to the received speech. The processing unit executes or controls the execution of the voice recognition function on the recorded user's speech, by the microphone 11, and digitized. The voice recognition can be performed on a computer in the vehicle or remotely on a dismounted computer, the digitized speech and the result of the recognition being, in this second case, exchanged via a wireless communication. The method further includes, if the voice recognition fails for the first time, determining, by the voice recognition function, a first type of recognition error. The type of detected error is transmitted to the processing unit 12 which, in response, transmits a first message intended for the user and adapted to the type of error detected. If the user has not responded (i.e. the device detects only silence) the device notifies this lack of response. A simple reminder message ("I'm listening to you") is issued as it may be a voluntary queuing to prioritize the driving activity. If the user has produced a non-interpretable voice command by the speech recognition function (ie words not belonging to the vocabulary of the speech recognition machine or an expression not recognized by the semantic processing module) the device notifies this lack of understanding. A simple request for repetition ("Pardon") 25 is issued to the extent that it may be a trivial pronunciation error. Applied in a driving situation, the emission 23 of a first adapted message allows the driver to prioritize his conduct and simply let him formulate or repeat his request without giving him further explanations. The assumption is made that the driver knows what he has to say to the device and that at this first step, he failed to formulate it.

Le procédé comporte ensuite une deuxième étape 24 d'acquisition et de reconnaissance vocale. Si la deuxième reconnaissance vocale échoue, le procédé comporte aussi la détermination 25, par la fonction de reconnaissance vocale, d'un deuxième type d'erreur de reconnaissance.The method then comprises a second step 24 of acquisition and voice recognition. If the second voice recognition fails, the method also includes determining, by the voice recognition function, a second type of recognition error.

Le type d'erreur détecté est transmis à l'unité de traitement 12 qui émet 26, en réponse, un deuxième message, destiné à l'utilisateur et adapté au type d'erreur détecté. Si l'utilisateur ne se fait toujours pas comprendre après le premier message de relance, le dispositif adopte une autre stratégie pour le guider dans le dialogue. Le deuxième message est adapté en fonction du type d'erreur détecté (silence ou rejet) et aussi en fonction de la répétition de ce type d'erreur (par exemple, deux silences consécutifs) ou d'un changement de type d'erreur (par exemple, un silence, puis un rejet). Le dispositif reformule alors la question.The type of detected error is transmitted to the processing unit 12 which transmits 26, in response, a second message, intended for the user and adapted to the type of detected error. If the user is still not understood after the first raise message, the device adopts another strategy to guide him through the dialogue. The second message is adapted according to the type of detected error (silence or rejection) and also according to the repetition of this type of error (for example, two consecutive silences) or a change of type of error ( for example, a silence, then a rejection). The device then reformulates the question.

De façon avantageuse, le dispositif comporte en outre une étape d'identification 30 de l'utilisateur. Le deuxième message est aussi adapté 31 en fonction de l'utilisateur identifié et, en particulier, en fonction de l'expérience de l'utilisateur avec le dispositif. Dans le cas d'un utilisateur novice, il propose une aide contextuelle permettant de guider plus explicitement l'utilisateur en lui précisant le type de réponse attendu. Cette aide est fournie à l'utilisateur novice, qu'il ait fait une réponse non comprise ou aucune réponse. Le dispositif peut donner des informations sur le contenu et sur les fonctionnalités offertes à cet instant. La commande "annuler" peut aussi être présentée de façon optionnelle.Advantageously, the device further comprises a step of identifying the user. The second message is also adapted according to the identified user and, in particular, according to the experience of the user with the device. In the case of a novice user, it provides contextual help to guide more explicitly the user by indicating the type of response expected. This help is provided to the novice user, regardless of whether the answer is not understood or not. The device can provide information about the content and features offered at this time. The "cancel" command can also be optionally presented.

L'émission du deuxième message guide plus précisément l'utilisateur pour l'aider à formuler correctement sa requête. Contrairement au premier message, des informations supplémentaires sont données au conducteur. Le procédé comporte ensuite troisième étape 27 d'acquisition et de reconnaissance vocale. Le procédé comporte en outre, si la reconnaissance vocale échoue une troisième fois, l'émission 28 d'un message renvoyant l'utilisateur vers une modalité alternative pour l'acquisition de la commande. Le troisième message précise l'échec de compréhension et propose une solution alternative pour atteindre le but visé par l'utilisateur à cette étape du dialogue. Le dispositif propose, par exemple, une solution de dialogue via un écran tactile (sélection d'un item ou saisie au clavier). Mais d'autres modalités de dialogues peuvent être envisagées selon les situations (abandon, mise en attente...). Le troisième message propose une solution alternative au dialogue vocal. Contrairement aux répondeurs vocaux qui peuvent renvoyer l'utilisateur à un conseiller (un humain), dans le véhicule, les autres modalités, présentes dans les dispositifs multifonctions, sont utilisées pour permettre à l'utilisateur la de réaliser sa requête même si il rencontre des problèmes avec le dispositif vocal. De façon avantageuse le procédé comporte, en outre, une étape d'activation de la modalité alternative proposée à l'utilisateur. Par activation de la modalité, on entend la mise en marche des moyens physiques associés à 15 la réalisation de ladite modalité. Par exemple, si la modalité est un écran tactile, l'activation consiste en l'allumage de l'écran si celui-ci est éteint. On décrit ci-après un exemple d'application du procédé et du dispositif selon l'invention, pour la rédaction d'un message. Si l'utilisateur demande « envoie un SMS » alors le dispositif lui répond « à qui voulez-vous 20 envoyer votre SMS ? » Suite à ce prompt, si l'utilisateur répond quelque chose d'inaudible ou d'incompréhensible, la gestion des écarts suivantes se met en place. Si la fonction de reconnaissance vocale détermine une première erreur (étape 22) de type silence alors le premier message (étape 23) est par 25 exemple : « je vous écoute ? ». Si la fonction de reconnaissance vocale détermine une première erreur (étape 22) de type rejet alors le premier message (étape 23) est par exemple : « pardon ? ». Suite à ce prompt, si l'utilisateur répond à nouveau quelque chose d'inaudible ou d'incompréhensible, le dispositif réagit comme suit.The transmission of the second message guides the user more precisely to help him formulate his request correctly. Unlike the first message, additional information is given to the driver. The method then comprises a third step 27 of acquisition and voice recognition. The method further comprises, if the voice recognition fails a third time, the transmission 28 of a message returning the user to an alternative mode for acquiring the command. The third message points out the failure of understanding and proposes an alternative solution to achieve the goal sought by the user at this stage of the dialogue. The device proposes, for example, a dialogue solution via a touch screen (selection of an item or keyboard entry). But other modalities of dialogues can be envisaged according to the situations (abandonment, put on wait ...). The third message offers an alternative solution to the voice dialogue. Unlike answering machines that can send the user to an advisor (a human), in the vehicle, the other modalities, present in the multifunction devices, are used to allow the user to carry out his request even if he encounters problems with the voice device. Advantageously, the method further comprises a step of activating the alternative modality proposed to the user. By activation of the modality, it is meant to start the physical means associated with the realization of said modality. For example, if the modality is a touch screen, the activation consists of turning on the screen if it is off. An exemplary application of the method and the device according to the invention for writing a message is described below. If the user asks "send an SMS" then the device answers "who do you want to send your SMS to? "Following this prompt, if the user responds something inaudible or incomprehensible, the management of the following gaps is put in place. If the speech recognition function determines a first error (step 22) of silence type then the first message (step 23) is for example: "I am listening to you? ". If the voice recognition function determines a first error (step 22) of the rejection type then the first message (step 23) is for example: "sorry? ". Following this prompt, if the user answers again something inaudible or incomprehensible, the device responds as follows.

30 Si la fonction de reconnaissance vocale détermine une deuxième erreur de type silence (étape 25) consécutive alors le deuxième message (étape 26) est par exemple : « Je n'ai détecté aucune commande ». Si la fonction de reconnaissance vocale détermine une deuxième erreur (étape 25) de type rejet alors le deuxième message (étape 26) est par exemple : « Je n'ai pas compris ». De façon préférentielle, le deuxième message comprend aussi une personnalisation en fonction de l'expérience de l'utilisateur. Par exemple, si l'utilisateur est novice, le deuxième message comprend la phrase « Indiquez moi un nom figurant dans votre liste de contact » (étape 31). Suite à ce prompt, si l'utilisateur répond à nouveau quelque chose d'inaudible ou d'incompréhensible, le dispositif émet un troisième message 1 o (étape 28). Le troisième message comprend une invitation à utiliser une autre modalité. Par exemple, le message comprend la phrase « Vous pouvez sélectionner un contact en utilisant l'écran tactile ».If the voice recognition function determines a second silent error (step 25) consecutive then the second message (step 26) is for example: "I did not detect any command". If the voice recognition function determines a second error (step 25) of the rejection type then the second message (step 26) is for example: "I did not understand". Preferably, the second message also includes a customization based on the experience of the user. For example, if the user is novice, the second message includes the phrase "Tell me a name on your contact list" (step 31). Following this prompt, if the user answers again something inaudible or incomprehensible, the device sends a third message 1 o (step 28). The third message includes an invitation to use another modality. For example, the message includes the phrase "You can select a contact using the touch screen."

Claims (9)

REVENDICATIONS1. Procédé de traitement de la parole d'un utilisateur pour l'acquisition d'une commande, ledit procédé comportant une étape d'acquisition (21), par l'intermédiaire d'un microphone (11), de la parole de l'utilisateur et d'application d'une fonction de reconnaissance vocale sur la parole reçue, caractérisé en ce qu'il comporte en outre : Si la reconnaissance vocale échoue une première fois, - La détermination (22) d'un premier type d'erreur de reconnaissance, - L'émission (23) d'un premier message adapté au premier type d'erreur détecté, - Une deuxième (24) acquisition et reconnaissance vocale, Si la deuxième reconnaissance vocale échoue, - La détermination (25) d'un deuxième type d'erreur de reconnaissance, - L'émission (26) d'un deuxième message adapté au deuxième type d'erreur détecté, - Une troisième (27) acquisition et reconnaissance vocale, Si la troisième reconnaissance vocale échoue, - L'émission (28) d'un troisième message renvoyant l'utilisateur vers une modalité alternative pour l'acquisition de ladite commande.REVENDICATIONS1. A method of processing the speech of a user for acquiring a command, said method comprising an acquisition step (21), via a microphone (11), of the user's speech and applying a speech recognition function on the received speech, characterized in that it further comprises: If the voice recognition fails a first time, - The determination (22) of a first type of error of recognition, - The emission (23) of a first message adapted to the first type of detected error, - A second (24) acquisition and voice recognition, If the second voice recognition fails, - The determination (25) of a second type of recognition error, - The transmission (26) of a second message adapted to the second type of detected error, - A third (27) acquisition and voice recognition, If the third voice recognition fails, - The transmission (28) of a third message returning the user ve rs an alternative modality for the acquisition of said order. 2. Procédé de traitement de la parole selon la revendication 1, dans lequel si le premier et le deuxième type d'erreur détecté sont identiques, alors le premier et le deuxième message sont différents.The speech processing method of claim 1, wherein if the first and second types of detected errors are identical, then the first and second messages are different. 3. Procédé de traitement de la parole selon l'une des revendications précédentes, comportant, en outre, une étape d'identification de l'utilisateur (30) et dans lequel le deuxième message est aussi adapté (31) en fonction de l'utilisateur identifié.Speech processing method according to one of the preceding claims, further comprising a step of identifying the user (30) and wherein the second message is also adapted (31) according to the identified user. 4. Procédé de traitement de la parole selon l'une des revendications précédentes, comportant en outre une étape d'activation de la modalité alternative proposée à l'utilisateur.4. Speech processing method according to one of the preceding claims, further comprising a step of activating the alternative modality proposed to the user. 5. Procédé de traitement de la parole selon l'une des revendications précédentes, dans lequel la détermination (22) d'un premier type d'erreur et la détermination (25) d'un deuxième type d'erreur permettent chacune de distinguer au moins deux types d'erreur, une erreur de type silence et une 1 o erreur de type rejet.Speech processing method according to one of the preceding claims, in which the determination (22) of a first type of error and the determination (25) of a second type of error each make it possible to distinguish between minus two types of error, a silence type error and a reject type error. 6. Procédé de traitement de la parole selon l'une des revendications précédentes, dans lequel la modalité alternative est un écran tactile. 156. Speech processing method according to one of the preceding claims, wherein the alternative mode is a touch screen. 15 7. Dispositif de traitement de la parole (10) d'un utilisateur comportant un microphone (11) pour enregistrer la parole d'un utilisateur, une unité de traitement (12) apte à commander une fonction de reconnaissance vocale sur la parole enregistré, caractérisé en ce que l'unité de traitement (12) est adaptée pour mettre oeuvre le procédé selon l'une des revendications 20 précédentes.A speech processing device (10) of a user having a microphone (11) for recording the speech of a user, a processing unit (12) adapted to control a speech recognition function on the recorded speech, characterized in that the processing unit (12) is adapted to implement the method according to one of the preceding claims. 8. Dispositif de traitement de la parole (10) selon la revendication précédente dans lequel la modalité alternative, indiquée par le troisième message, est un écran tactile. 258. Speech processing device (10) according to the preceding claim wherein the alternative mode, indicated by the third message, is a touch screen. 25 9. Véhicule comportant un dispositif de traitement de la parole (10) selon l'une des revendications 7 ou 8.9. Vehicle comprising a speech processing device (10) according to one of claims 7 or 8.
FR1455088A 2014-06-05 2014-06-05 SPEECH TREATMENT DEVICE DEVICE DARKNESS MANAGEMENT METHOD Expired - Fee Related FR3022068B1 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
FR1455088A FR3022068B1 (en) 2014-06-05 2014-06-05 SPEECH TREATMENT DEVICE DEVICE DARKNESS MANAGEMENT METHOD

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
FR1455088A FR3022068B1 (en) 2014-06-05 2014-06-05 SPEECH TREATMENT DEVICE DEVICE DARKNESS MANAGEMENT METHOD

Publications (2)

Publication Number Publication Date
FR3022068A1 true FR3022068A1 (en) 2015-12-11
FR3022068B1 FR3022068B1 (en) 2016-07-01

Family

ID=51659756

Family Applications (1)

Application Number Title Priority Date Filing Date
FR1455088A Expired - Fee Related FR3022068B1 (en) 2014-06-05 2014-06-05 SPEECH TREATMENT DEVICE DEVICE DARKNESS MANAGEMENT METHOD

Country Status (1)

Country Link
FR (1) FR3022068B1 (en)

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5774841A (en) * 1995-09-20 1998-06-30 The United States Of America As Represented By The Adminstrator Of The National Aeronautics And Space Administration Real-time reconfigurable adaptive speech recognition command and control apparatus and method
US20030033146A1 (en) * 2001-08-03 2003-02-13 Morin Philippe R. Method for efficient, safe and reliable data entry by voice under adverse conditions
US20030105634A1 (en) * 2001-10-15 2003-06-05 Alicia Abella Method for dialog management
US20050033574A1 (en) * 2003-08-06 2005-02-10 Samsung Electronics Co., Ltd. Method and apparatus handling speech recognition errors in spoken dialogue systems

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5774841A (en) * 1995-09-20 1998-06-30 The United States Of America As Represented By The Adminstrator Of The National Aeronautics And Space Administration Real-time reconfigurable adaptive speech recognition command and control apparatus and method
US20030033146A1 (en) * 2001-08-03 2003-02-13 Morin Philippe R. Method for efficient, safe and reliable data entry by voice under adverse conditions
US20030105634A1 (en) * 2001-10-15 2003-06-05 Alicia Abella Method for dialog management
US20050033574A1 (en) * 2003-08-06 2005-02-10 Samsung Electronics Co., Ltd. Method and apparatus handling speech recognition errors in spoken dialogue systems

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
GINA-ANNE LEVOW: "Characterizing and Recognizing Spoken Corrections in Human-Computer Dialogue", PROCEEDING COLING '98: PROCEEDINGS OF THE 17TH INTERNATIONAL CONFERENCE ON COMPUTATIONAL LINGUISTICS, 1 January 1998 (1998-01-01), pages 736 - 742, XP055030034, Retrieved from the Internet <URL:http://delivery.acm.org/10.1145/990000/980969/p736-levow.pdf?ip=145.64.134.241&acc=OPEN&CFID=112130174&CFTOKEN=49708997&__acm__=1339753363_5f224eaa7972a7fa4dd17603178f746e> [retrieved on 20120615] *

Also Published As

Publication number Publication date
FR3022068B1 (en) 2016-07-01

Similar Documents

Publication Publication Date Title
US11798541B2 (en) Automatically determining language for speech recognition of spoken utterance received via an automated assistant interface
US11810554B2 (en) Audio message extraction
US11164570B2 (en) Voice assistant tracking and activation
EP3642833B1 (en) Dynamic and/or context-specific hot words to invoke automated assistant
US20190051309A1 (en) Speaker identification and unsupervised speaker adaptation techniques
CN110741338B (en) Isolating a device from multiple devices in an environment in response to spoken assistant invocation
JP2019523907A (en) Non-deterministic task start with personal assistant module
US20240203400A1 (en) Speaker awareness using speaker dependent speech model(s)
US11741958B2 (en) Using structured audio output to detect playback and/or to adapt to misaligned playback in wireless speakers
US12112755B2 (en) Automated calling system
EP3635982A1 (en) Pairing a voice-enabled device with a display device
US11646031B2 (en) Method, device and computer-readable storage medium having instructions for processing a speech input, transportation vehicle, and user terminal with speech processing
US10997963B1 (en) Voice based interaction based on context-based directives
US11023202B2 (en) Enhanced autocorrect features using audio interface
FR3022068A1 (en) SPEECH TREATMENT DEVICE DEVICE DARKNESS MANAGEMENT METHOD
FR3026542A1 (en) RECOGNIZED VOICE RECOGNITION
US20230230578A1 (en) Personalized speech query endpointing based on prior interaction(s)
FR3089035A1 (en) Method for selective activation of virtual personal assistants in a motor vehicle
FR3105499A1 (en) Method and device for visual animation of a voice control interface of a virtual personal assistant on board a motor vehicle, and a motor vehicle incorporating it
WO2021099024A1 (en) Computing resource-saving voice assistant
EP4243012A1 (en) System and method for warning and control by voice recognition
FR3102287A1 (en) Method and device for implementing a virtual personal assistant in a motor vehicle using a connected device
FR3016709A1 (en) METHOD AND DEVICE FOR PROCESSING THE SPEECH OF A USER

Legal Events

Date Code Title Description
PLFP Fee payment

Year of fee payment: 2

PLSC Publication of the preliminary search report

Effective date: 20151211

PLFP Fee payment

Year of fee payment: 3

ST Notification of lapse

Effective date: 20180228